大数据的特点及应用
Volume:数据体量大;
Variety:种类、来源多样化;
Value:低价值密度;
Velocity:速度快;
Veracity:数据的质量;
Hadoop介绍
创始人Doug Cutting(道·卡廷)
Hadoop指Apache这款开源框架,它的核心组件有:
a)HDFS(分布式文件系统):解决海量数据存储;
b)MAPREDUCE(分布式运算编程框架):解决海量数据计算;
c)YARN(作业调度和集群资源管理的框架):解决资源任务调度。
综上,Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。
使用Hadoop框架做大数据开发,优势有:
(1)扩容能力
(2)成本低
(3)高效率
(4)可靠性
Hadoop架构详解
1)HDFS:分布式文件系统 HDFS全称是:Hadoop Distributed File System,是一个分布式文件系统。
HDFS有三个服务:
a) NameNode(NN):处理客户端读写请求,存储文件的元数据,以及每个文件的块列表、数据块DataNode等;
b)DataNode(DN):存储实际的数据块,并执行数据块的读写操作;
c)Secondary NameNode(2NN):每隔一段时间后,会对NameNode做元数据备份
2)MapReduce:分布式计算
MapReduce将计算过程分为两个阶段,分别是Map和Reduce:
a)Map阶段并行处理输入的数据;
b)Reduce阶段对Map结果进行汇总处理。
3)Yarn:资源调度
YARN的全称是Yet Another Resource Negotiator,另一种资源协调者,是Hadoop的资源管理器。 由四个服务组成,分别是:
a)ResourceManager(RM,资源管理器):集群资源(cpu,内存等)管理者;
b)NodeManager(DM,节点管理器):单个节点资源的管理者;
c)ApplicationMaster(AM,任务管理器):单个任务运行的管理者;
d)Client Application:客户端提交的应用程序。