大数据是什么
经常听别人说“我要去学习大数据”,乍一听大数据应该是某个技术。
百度解释:无法在规定时间内用给现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。通俗讲,大数据就是大到难以处理的数据集合,是社会技术发展过程中碰到的棘手问题。
于是,我们为了解决这个问题,衍生出各种技术,而这些技术才是我们学习的内容。所以说,“我要去学习大数据”完整的说法应该是“我要去学习处理大数据问题的技术”。
大数据技术生态圈
先放图:
注:图中左侧是技术大分类,右侧是技术细分,括号中是列举的具体技术关键字
大数据技术分类 | 大数据技术与工具 |
---|---|
基础架构支持 | 云计算平台(Apache Hadoop、OpenStark) |
储存虚拟化、分布式存储 | |
虚拟化(VM、Docker) | |
网络(OpenFlow) | |
数据采集 | 数据总线 |
ETL工具(flume、kafka、sqoop) | |
数据存储 | 分布式文件系统(HDFS、GFS) |
关系型数据库(Oracle、MySQL) | |
Nosql数据库(HBase、Redis) | |
关系型数据库和非关系新数据库的融合(Newsql) | |
内存数据库(MemCache) | |
数据计算 | 数据查询、统计与分析(MapReduce、Pig、hive) |
数据预测与挖掘(Spark、Mahout) | |
图谱处理 | |
BI商业智能 | |
展示和交互 | 图形与报表(Hue) |
可视化工具(D3、Echart、MapV、谷歌地图) | |
增强现实技术(Google眼镜) |
大数据技术分类详解
遮住右边的技术细分,我们看左边的五个大分类。我用一个通俗的案例帮助大家理解和记忆。
假设,现在我们要搞大数据了,买来了200台计算机,并整齐地放在了某个房间里。那么问题来了,怎么有效的组织这些计算机,让它们协同工作呢?“技术架构支持”这类技术就是为了解决这个问题。
好了,现在我们已经将200台计算机有效组织,并能配合工作。开始搞大数据,哎?一拍脑瓜,数据哪来?“数据采集”呼之欲出,它帮你解决数据哪来的问题。
现在,我们已经找到了数据源,并且有了采集的技术,但是呢,我们放哪啊?“数据存储”技术为你服务。
一步步攻克难题,我们现在已经可以从我的网站或者各类系统将数据持续不断地存储到一个数据仓库。那么我们如何使用这些宝贵的数据,挖掘出它们无尽的价值呢?“数据计算”登场了。
万事俱备,就差最后一步了。现在我们已经从大量数据中挖掘提取出了有价值信息。我们需要展示出来啊!对,“展示和交互”氤氲而出。
到此,我们的大数据实践之旅完美结束。
技术细分和相关具体技术的讲解,由于时间原因,将留到下一节中。