大数据概况
大数据概念
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
一、大数据特征:
- 1、4V特征
a)Volume(大数据量):90% 的数据是过去两年产生
b)Velocity(速度快):数据增长速度快,时效性高
c)Variety(多样化):数据种类和来源多样化
结构化数据、半结构化数据、非结构化数据
d)Value(价值密度低):需挖掘获取数据价值 - 2、固有特征
a)时效性
b)不可变性
二、分布式计算
分布式计算将较大的数据分成小的部分进行处理。
Hadoop生态系统
Hadoop概念
一、Hadoop概念:
- 1、Hadoop是一个开源分布式系统架构
分布式文件系统HDFS——解决大数据存储
分布式计算框架MapReduce——解决大数据计算
分布式资源管理系统YARN - 2、处理海量数据的架构首选
- 3、非常快得完成大数据计算任务
- 4、已发展成为一个Hadoop生态圈
二、Hadoop发展及版本
- 1、Hadoop起源于搜索引擎Apache Nutch
创始人:Doug Cutting
2004年 - 最初版本实施
2008年 - 成为Apache顶级项目 - 2、Hadoop发行版本
社区版:Apache Hadoop
Cloudera发行版:CDH
Hortonworks发行版:HDP
三、Hadoop特点:
- 1、高扩展性,可伸缩
- 2、高可靠性(多副本机制,容错高)
- 3、低成本
- 4、无共享架构
- 5、灵活,可存储任意类型数据
- 6、开源,社区活跃
四、Hadoop与关系型数据库对比