大数据||MapReduce之wordcount处理过程

最新推荐文章于 2020-09-08 23:19:48 发布

weixin_33898876

最新推荐文章于 2020-09-08 23:19:48 发布

阅读量140

点赞数

文章标签：大数据

原文链接：https://yq.aliyun.com/articles/510264

版权

将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，下图所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows/Linux环境不同）。

image.png

将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，下图所示。

得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，得到Mapper的最终输出结果。

image.png

Reducer先对从Mapper接收的数据进行排序、分组，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，

image.png

hive的底层就是MapReduce。学好它就可以调试甚至修改hive。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注