大数据概述及其生态圈(一)

原创 2016年08月30日 09:39:08

大数据是什么

经常听别人说“我要去学习大数据”,乍一听大数据应该是某个技术。

百度解释:无法在规定时间内用给现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。通俗讲,大数据就是大到难以处理的数据集合,是社会技术发展过程中碰到的棘手问题。

于是,我们为了解决这个问题,衍生出各种技术,而这些技术才是我们学习的内容。所以说,“我要去学习大数据”完整的说法应该是“我要去学习处理大数据问题的技术”。

大数据技术生态圈

先放图:

注:图中左侧是技术大分类,右侧是技术细分,括号中是列举的具体技术关键字

大数据技术分类 大数据技术与工具
基础架构支持 云计算平台(Apache Hadoop、OpenStark)
储存虚拟化、分布式存储
虚拟化(VM、Docker)
网络(OpenFlow)
数据采集 数据总线
ETL工具(flume、kafka、sqoop)
数据存储 分布式文件系统(HDFS、GFS)
关系型数据库(Oracle、MySQL)
Nosql数据库(HBase、Redis)
关系型数据库和非关系新数据库的融合(Newsql)
内存数据库(MemCache)
数据计算 数据查询、统计与分析(MapReduce、Pig、hive)
数据预测与挖掘(Spark、Mahout)
图谱处理
BI商业智能
展示和交互 图形与报表(Hue)
可视化工具(D3、Echart、MapV、谷歌地图)
增强现实技术(Google眼镜)

大数据技术分类详解

遮住右边的技术细分,我们看左边的五个大分类。我用一个通俗的案例帮助大家理解和记忆。

假设,现在我们要搞大数据了,买来了200台计算机,并整齐地放在了某个房间里。那么问题来了,怎么有效的组织这些计算机,让它们协同工作呢?“技术架构支持”这类技术就是为了解决这个问题。

好了,现在我们已经将200台计算机有效组织,并能配合工作。开始搞大数据,哎?一拍脑瓜,数据哪来?“数据采集”呼之欲出,它帮你解决数据哪来的问题。

现在,我们已经找到了数据源,并且有了采集的技术,但是呢,我们放哪啊?“数据存储”技术为你服务。

一步步攻克难题,我们现在已经可以从我的网站或者各类系统将数据持续不断地存储到一个数据仓库。那么我们如何使用这些宝贵的数据,挖掘出它们无尽的价值呢?“数据计算”登场了。

万事俱备,就差最后一步了。现在我们已经从大量数据中挖掘提取出了有价值信息。我们需要展示出来啊!对,“展示和交互”氤氲而出。

到此,我们的大数据实践之旅完美结束。


技术细分和相关具体技术的讲解,由于时间原因,将留到下一节中。

相关文章推荐

基于大数据分析的安全管理平台技术研究及应用

源自:http://www.aboutyun.com/thread-13793-1-1.html 问题描述: 1.什么是大数据? 2.大数据的基本特征是什么? 3大数据安全分析技术的安全管理平...

大数据概述及其生态圈(二)基础架构支持

前面的章节已经讲过,搞大数据的第一步就是基础架构的支持。它解决了如何组织、协调、分配计算资源、存储资源、网络资源以及其他硬件资源的问题。本节我们将简单讲述其中所包含的内容。...

大数据概述及其生态圈(三)数据采集

本节主要讲解大数据技术中的数据采集技术。数据采集,顾名思义,就是从各种系统每天产生并存放在各类数据库,文件系统的数据,或者服务器每天产生各种日志文件,又或者是各种图像、音频、视频文件等,把相应的数据采...

大数据分析技术生态圈一览

大数据分析技术生态圈一览 人人都说大数据,但很多人对这个领域并非真正地了解。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们...

一文教你看懂大数据的技术生态圈:Hadoop,hive,spark

大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可...
  • ynwso
  • ynwso
  • 2015年07月23日 14:10
  • 422

Hadoop专业解决方案-第一章 大数据和Hadoop生态圈

本章节由《Hadoop专业解决方案群:313702010》翻译小组完成,为小组校验稿,已经通过小组内部校验通过,特此面向网络征集意见,如果对本章节内容有任何异议,请在评论中加以说明,说明时,请标明行号...

一文教你看懂大数据的技术生态圈 Hadoop,hive,spark

原文地址:http://www.zhihu.com/question/27974418/answer/38965760 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为...

大数据时代之hadoop(六):hadoop 生态圈(pig,hive,hbase,ZooKeeper,Sqoop)

[置顶] 大数据时代之hadoop(六):hadoop 生态圈(pig,hive,hbase,ZooKeeper,Sqoop) 分类: hadoop 大数据2014-11-11 08:4...

大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门   1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础...

什么是HADOOP、产生背景、在大数据、云计算中的位置和关系、国内外HADOOP应用案例介绍、就业方向、生态圈以及各组成部分的简介(学习资料中的文档材料)

1. HADOOP背景介绍1. 1.1 什么是HADOOP1.        HADOOP是apache旗下的一套开源软件平台2.        HADOOP提供的功能:利用服务器集群,根据用户的自定...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大数据概述及其生态圈(一)
举报原因:
原因补充:

(最多只允许输入30个字)