Hadoopd HDFS伪分布式系统环境搭建
大数据的4v特征:
1.Volume:大数据量,90%的数据是近两年产生的。
2.Value:价值密度低,需要进行挖取获得数据价值
3.Velocity:增长速度快,数据的增长速度快,时效性高
4.Variety:数据多样化,数据种类和来源多样化:结构化数据,非结构化数据,半结构化数据
Hadoop
三大核心:
1.HDFS : 分布式存储系统
2.YARN : 资源管理调度系统负责管理和调度集群资源
3.MapReduce:分布式框架运算
四大特征:
1.扩容能力:有着可靠的存储和处理千兆字节数据
2.可靠性:Hadoop自动维护数据多份副本,失败的任务会自动重新部署计算任务。
3.成本低:通过普通机器组成服务器群来分发处理数据。
4.高效性:通过分发数据,Hadoop可以并行处理