大数据的4V特性
Volume:量大,存储量大,计算量大
Variety:多样,来源多,格式多
Value:价值,价值密度低
Velocity:快速,数据增长速度快,处理速度要求快
Hadoop
Hadoop适合海量数据分布式存储和分布计算。
Hadoop的作者Doug Cutting,Hadoop是作者的孩子给他的毛绒象玩具器的名字。
版本:
Apache Hadoop:官方版本。
Cloudera Hadoop(CDH):商业版本。
HortonWorks(HDP):开源。
HDP已经被CDH收购,都属于一个公司产品。
演变历史
1.x:HDFS、MapReduce
2.x:HDFS、MapReduce、Yarn、Others
3.x:HDFS、MapReduce、Yarn、Others、
细节优化(1.java改为支持8及以上;2.HDFS支持纠删码:数据持久化存储方案;3.hdfs支持多NameNode;4.MR任务本地优化;5.多重服务默认端口变更)
三大核心组件
HDFS:分布式存储。
MapReduce:计算模型,分布式计算。
Yarn:集群资源管理和调度(平台)