Hadoop生态圈组件简介_第一章
备注 : 不耐烦看前面两个细节的,可以直接跳过看最后一个‘‘一句话总结Hadoop各组件’’
Hadoop 3大核心组件
简介 :Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
Hadoop 的核心是 HDFS 和 Mapreduce,HDFS 还包括 YARN。
1.HDFS :hadoop分布式文件系统(可直接下载配置使用)
HDFS是GFS的一种实现,他的完整名字是分布式文件系统,类似于FAT32,NTFS,是一种文件格式,是底层的。
Hive与Hbase的数据一般都存储在HDFS上。Hadoop HDFS为他们提供了高可靠性的底层存储支持。
(1)解决问题 :解决的是分布式系统中的文件存储问题
(2)它本质上是提供一套跨机器的文件管理服务:读/查询,存
2.Mapreduce : hadoop的分布式运算查询,编程框架,(需写代码,不可直接使用)
(1)解决问题 :降低分布式运算程序开发的难度,提高开发效率(继承Mapreduce 接口,补逻辑,进行运行)
3.YARN : hadoop分布式运算资源调度系统</