大数据概述及其生态圈（一）

最新推荐文章于 2024-08-05 08:58:14 发布

小马xml

最新推荐文章于 2024-08-05 08:58:14 发布

阅读量6k

点赞数 5

分类专栏：大数据系统运维文章标签：大数据 hadoop 云计算 openstark spark

本文链接：https://blog.csdn.net/m1213642578/article/details/52366570

版权

11 篇文章 2 订阅

订阅专栏

10 篇文章 1 订阅

订阅专栏

经常听别人说“我要去学习大数据”，乍一听大数据应该是某个技术。

百度解释：无法在规定时间内用给现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。通俗讲，大数据就是大到难以处理的数据集合，是社会技术发展过程中碰到的棘手问题。

于是，我们为了解决这个问题，衍生出各种技术，而这些技术才是我们学习的内容。所以说，“我要去学习大数据”完整的说法应该是“我要去学习处理大数据问题的技术”。

先放图：

注：图中左侧是技术大分类，右侧是技术细分，括号中是列举的具体技术关键字

大数据技术分类	大数据技术与工具
基础架构支持	云计算平台（Apache Hadoop、OpenStark）
	储存虚拟化、分布式存储
	虚拟化（VM、Docker）
	网络（OpenFlow）

数据采集	数据总线
	ETL工具（flume、kafka、sqoop）

数据存储	分布式文件系统（HDFS、GFS）
	关系型数据库（Oracle、MySQL）
	Nosql数据库（HBase、Redis）
	关系型数据库和非关系新数据库的融合（Newsql）
	内存数据库（MemCache）

数据计算	数据查询、统计与分析（MapReduce、Pig、hive）
	数据预测与挖掘（Spark、Mahout）
	图谱处理
	BI商业智能

展示和交互	图形与报表（Hue）
	可视化工具（D3、Echart、MapV、谷歌地图）
	增强现实技术（Google眼镜）