Hadoop中map端流程分析

1. map端的主要函数有以下几个:

split --> Record Reader --> map --> partition --> combine(Local Reduce)


2. 以上几个函数各自的作用如下:

split:用于将HDFS中的文件分块,并完成分块文件到各个map任务的映射。

Record Reader:因为每一个map函数的输入输出参数都是key value pair。Record Reader做的事情就是依次读取分块文件中的每一行,将每一行作为一个value,而对应的key就是行号。然后每次将此kvp传递给map函数处理。

map:由用户生成的计算,用于处理文件。

partition:每次用户处理完一个kvp,存储的时候,后台都会进行一个partition,partiton的作用就是依照key进行hash,确定此kvp究竟要存放到哪一个partition文件中。因为map执行完之后,有几个reduce函数就会对应生成几个partiton文件,每一个reduce对应获取一个文件,获取的方式为http。

combine:就是在map完成之后就行一个本地的reduce。一般是没有这一步的,但是用户可以设定。


原文地址:http://luluq1987.blog.163.com/blog/static/40790681201121934352484/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值