mr底层源码的过程总结

不是解释源码,只是把过程总结

一 读取阶段

  1. 把输入文件做逻辑切分,切分成split
       读取文件列表
       按照规则将文件进行逻辑切分(剩余文件大小/split大小>1.1)
       Split包含的属性:
          Path
          起始位置
          大小
          所在主机
       把所有生成的split添加到集合中

  2. 为每一个split创建RecordReader
       recordReader的作用是把每个split中的数据解析成record,即<k1,v1>;
       如果一行数据被且分到两个split中,会出问题,处理方法就是如果不是第一个split,就不读第一行,同时读取下一个split的第一行。

二 写入阶段

  1. Outputformat
       将输出流和数据传递给LineRecordWriter;
       先判断输出目录存在否,是就报异常;
       调用write方法,使用OutputCommitter获取输出数据提交器,负责将数据写入数据目录。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值