MapReduce - Map输入的分片

回顾:


在一个电话面试之中,对方提到了:Map阶段的分片处理。由于在沟通之中有些许紧张,在对方问及:Map分片的算法过程能否简单的描述?这个问题,由于对方选取了 Map算法的用词,一时间思路被诱导了,想到的只有shuffle,以及hash分区,和boolean过滤器等。

而事实上,一个 输入的分片,在MapReduce之中被称为”split“就是单个Map处理的块,每一个Map的操作都只是处理一个输入分片。每个分片被划分为若干个记录,并且,每条记录就是一个键值对。Map一个一个的来处理这些数据。事实上,如果单纯在是否数据一条条来被处理意外,这和Storm是没有多大的区别的。而这里的Split 也就是通常数据处理之中的segment,  一个输入的分片可以对应于同一个表上的若干行。 而一条数据对于与一行。

输入分片被包装称为了一个java 的interface

public interface InputSplit extends Writable
{

    long getLength() throws IOException;
    String[] getLocation() throws IOException

}


通常你也不需要自己来处理这个分片 ,分片是由于 InputFormat来创建的,InputFormat负责产生输入的分片并将他们分割为记录。

另外一个关键的地方是 RecordReader。 RecorderReader 也就是我们所说的记录迭代器。Map任务会用一个记录的迭代器来生产键值队。



而 InputFormat 才是我们真正的的使用类。


Java 代码如下:

public interface IntputFormat<k,v>
{

    InputSplit[] getSplit(JobConf,int numSplits) throws IOException;
    
    RecordReader<k,v> getRecordReader(InputSplit split,JobConf conf,Reporter reporter)
    throws IOExcetion
}


    第一个方法,你可以指定NumSplits,当然很多时候指定是无效的。

    第二个方法,你一句getRecordReader来拿到RecordReader;


    面试的感触:很多时候,技术驱动的公司往往没有产品的思维。更不用说是市场化的逻辑了。


    一个即将被淘汰的组件,却成了面试的重点。


转载于:https://my.oschina.net/infiniteSpace/blog/346101

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值