MapReduce详解和WordCount模拟

最新推荐文章于 2020-04-07 09:43:03 发布

卅千万

最新推荐文章于 2020-04-07 09:43:03 发布

阅读量365

点赞数

分类专栏：大数据文章标签： Hadoop MapReduce wordcount

本文链接：https://blog.csdn.net/u013408224/article/details/86667272

版权

最早接触大数据，常萦绕耳边的一个词「MapReduce」。它到底是什么，能做什么，原理又是什么？且听下文讲解。

是什么

MapReduce 即是一个编程模型，又是一个计算框架，它充分采用了分治的思想，将数据处理过程拆分成两步：Map 和 Reduce。用户只需要编写 map() 和 reduce() 函数，就能使问题的计算实现分布式，并在Hadoop上执行。

数据处理

MapReduce 操作数据的最小单位是一个键值对。map 端的主要输入是一对<key,value>值，经过 map 计算后输出一对<key,value>，然后将相同的 key 合并，形成<key,value 集合>，再将这个<key,value 集合>输入 reduce ，经过计算输出零个或多个<key,value>对。

两个重要的进程

JobTracker

JobTracker 在集群中负责任务调度和集群资源监控这两个功能。TaskTracker 通过周期性的心跳向 JobTracker 汇报当前的健康状况和状态，心跳中包括自身计算资源的信息、被占用的计算资源的信息和正在运行中的任务的状态信息。JobTracker 会根据各个 TaskTracker 周期性发送过来的心跳信息综合考虑TaskTracker 的资源余量、作业优先级、作业提交时间等因素，为 TaskTracker 分配合适的任务。

JobTracker 提供了一个基于 web 的管理界面，可以通过 JobTracker:50030 端口访问。