Hadoop发展史以及版本、功能的简介
Hadoop概述
Hadoop是Apache基金会旗下的一个开源的分布式计算平台,是基于Java语言开发的,有很好的跨平台特性,并且可以部署在廉价的计算机集群中。
Hadoop的发展史
Hadoop创始人Doug Cutting (道格·卡丁), Doug Cutting 为升级优化Lucene框架创造了最初始的Hadoop缩影
Hadoop 图标起源于Doug Cutting (道格·卡丁)的儿子的玩偶大象
在后面的开发中谷歌的三篇论文加快了Hadoop的发展
《The Google file system》: 谷歌分布式文件系统GFS -> HDFS
《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
-> MR
《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
-> HBase
终于在2006年,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临
Hadoop的发行版本
Hadoop发行版本分为开源社区版和商业版
开源社区版本 : Apache
优点 :有着大量的开发者研发,更新迭代版本最新,并且免费下载
缺点 : 没有版本的维护,版本的兼容各项指标不稳定,不能为公司的项目提供稳定的环境
商业版本 :Cloudera(CDH)
优点 : 实现版本之间的稳定运行,大数据生态圈的各个版本的软件都提供了对应的版本,解决了版本的升级困难,版本兼容性等各种问题
缺点 :需要收费
Hadoop的各版本简介
1.0版本系列: 内核主要由 HDFS(存储)和MapReduce(计算和资源调度)
2.0版本系列: 架构产生重大变化,引入了Yarn平台等许多新特性 Hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)
3.0版本系列: 升级了java的搭载版本以及提升了处理速率 Hadoop组成: HDFS(存储)和MapReduce(计算)和YARN(资源调度)
Hadoop框架简介
Hadoop1.0
底层是 HDFS 做数据分布式储存
上面是 Map Reduce 做数据库处理和集群资源调度
Hadoop 2.0
底层是 HDFS 做数据分布式储存
上面是 Yarn 集群资源调度
Yarn 上面是 Map reduce 和 Other Processing
map reduce 做数据处理 other processing 其它进程
Yarn 为 Map Reduce做资源调度还为其它进程做调度
Hadoop各组件详情介绍
HDFS存储数据:
(元数据是储存到内存中的,占用150个字节)
(Hadoop的高可用是为了解决name node 故障问题)
(NameNode 是基于edits(日志文件的储存)和fsimage(镜像文件,是edits的文件总和)配合完成它的工作)
(Scondary NameNode 会定期的从Name NODE中拉取数据然后合并edits成为fsimage,提供给Nmae NODE使用)
NAME NODE主节点:接收计算机传达的信息,储存元数据,分配储存任务给从节点
Scondary NameNode二次节点: 辅助主节点工作,提高主节点工作效率,同时在必要的时候可以辅助主节点恢复数据
DateNode从节点:执行主节点分配的储存任务,储存各种业务数据
YARN资源调度:
Resource Manager: 接收计算机的计算请求任务,为任务管理节点分配管理负责区域
Node Manager:被分配管理区域后对接当下的主节点执行任务
MapReduce数据计算:从HDFS中获取海量的数据进行拆分,再对拆分成各块的数据进行计算,最后对各块计算完的数据进行数据总结从而得出结果
以上就是小浪本次发布的内容,如果对友友您有帮助,还麻烦您给小浪点个关注 和 赞,这是对小浪莫大的支持,蟹蟹友友们,小浪还会持续更新,分享自己在学习整个过程中遇到的问题!