-
什么是数据?
-
对人的行为及习惯做的一种记录.
-
大白话: 一切皆数据.
-
-
数据有什么?
-
可以帮助我们更好的了解事与物之间的规律, 更好的提高人们的生活体验和生活环境
-
-
什么是大数据?
-
狭义上理解: 分析海量的数据, 提取出有价值的信息.
-
广义上理解: 用数据为生活赋能, 改善人类的生活体验和生活质量.
-
-
大数据的特点?
-
大多值快信.
多: 种类繁多, 分为结构化数据, 半结构化数据, 非结构化数据.
结构化数据: Excel表, MySQL表.
半结构化数据: json字符串, html, xml
非结构化数据: 音频, 视频等...
-
-
大数据解决了什么问题?
-
海量数据的: 存储
-
海量数据的: 计算
-
海量数据的: 传输
-
大数据体系介绍
* 海量数据的存储: HDFS, HBase
* 海量数据的计算: MapReduce, Hive, Spark, Flink
* 海量数据的传输: Sqoop, Flume, Kafka...
那接下来我们再讲讲我们即将接触的Apache Hadoop的一些基本信息:
Hadoop之父: 道格 卡丁 Doug Cutting
吉祥物: 大象Hadoop解释:
狭义上: 指的是HDFS, MapReduce, Yarn等框架.
广义上: 指的是Hadoop生态圈, 包括但不限于周边所有技术, 例如: Spark, Flink, Sqoop...
Hadoop组成:
HDFS: hadoop distributed file system, Hadoop的分布式文件系统.
MapReduce: 分布式计算框架
Yarn: 分布式任务接收和资源调度框架.
大数据的三架马车:
2003, 谷歌的GFS => 卡大爷开源, HDFS
2004, 谷歌的MapReduce => MapReduce
2006, 谷歌的BigTable => HBase
Hadoop的版本:
社区版, 免费的, 有Apache维护.
商业版, 收费的, 用的最多的, CDH(Cloudera公司的产品, 卡大爷目前就就职于这家公司)
这一篇也主要是让大家认识一下什么是大数据以及Hadoop的一些基本概念,之后我也会出几期更加具体的Hadoop框架信息,有兴趣的小伙伴也可以关注一下我之后发布的信息内容。