简单比较hadoop1.x和hadoop2.x的区别

最新推荐文章于 2022-08-16 14:59:50 发布

heart of sea

最新推荐文章于 2022-08-16 14:59:50 发布

阅读量1.3k

点赞数 3

分类专栏： BigData 文章标签： hadoop 大数据 mapreduce

本文链接：https://blog.csdn.net/qq_42112448/article/details/105227566

版权

BigData 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

hadoop1.x和hadoop2.x的区别：

Hadoop1.x版本：

内核主要由Hdfs和Mapreduce两个系统组成，其中Mapreduce是一个离线分布式计算框架，由一个JobTracker和多个TaskTracker组成。

JobTracker的主要作用：JobTracker是框架的中心，接收任务，计算资源，分配资源，分配任务，与DataNode进行交流等功能。决策程序失败时重启等操作。又当爹又当妈。

TaskTracker同时监视当前机器上的task运行状况。TaskTracker需要把这些信息通过心跳,发送给jobTracker，jobTracker会收集这些信息以给新提交的job分配运行在那些机器上。

存在问题：

1.JobTracker是mapreduce的集中处理点，存在单点故障；

2.JobTracker完成了太多任务，造成了过多资源的消耗，当mapreduce job非常多的时候，会造成很大的内存消耗，同时也增加了JobTracker失效的风险，这也是业界普遍总结出老的hadoop的mapreduce只能支持4000节点主机的上限。

Hadoop2.x版本：

第二代的hadoop版本，为克服hadoop1.0中的hdfs和mapreduce存在的各种问题而提出的。针对hadoop1.x中的单NameNode制约HDFS的扩展性问题，提出了HDFS Federation,它让多个NameNode分管不同的目录进而实现访问隔离和横向扩展,同时它彻底解决了NameNode单点故障问题，针对Hadoop1.0中的Mapreduce的Mapreduce在扩展性和多框架支持等方面不足。

MRv2具有与MRv1相同的编程模型和数据处理引擎，唯一不同的是运行时环境。MRv2是在MRv1基础上经加工之后，运行于资源管理框架YARN之上的计算框架MapReduce。它的运行时环境不再由JobTracker和TaskTracker等服务组成，而是变为通用资源管理系统YARN和作业控制进程ApplicationMaster，其中，YARN负责资源管理和调度，而ApplicationMaster仅负责一个作业的管理。简言之，MRv1仅是一个独立的离线计算框架，而MRv2则是运行于YARN之上的MapReduce。

整体上：分为两个方面

1.任务调度和资源管理方面：

1）Hadoop1中的JobTracker是一个功能集中的部分，负责资源的分配和任务的分配，所以JobTracker单点出问题就会造成整个集群无法使用了，而且MapReduce模式是集成在Hadoop1中，不易分解，不好添加其他模式;

2）Hadoop2中，ResourceManager(RM)就是负责资源的分配，NodeManager(NM)是从节点上管理资源的，而ApplicationMaster(AM)就是一个负责任务分配的组件，根据不同的模式有不同的AM，因此MapReduce模式有自己独有的AM;