HDFS的MapReduce执行流程

最新推荐文章于 2021-12-24 20:37:07 发布

偶尔想起你

最新推荐文章于 2021-12-24 20:37:07 发布

阅读量256

点赞数 1

分类专栏： MapReduce 文章标签： MapReduce

本文链接：https://blog.csdn.net/weixin_43181007/article/details/87252732

版权

MapReduce 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 从HDFS中获取数据
2. MapReduce首先会将输入的数据进行逻辑切片，每一个切片是一个InputSplit对象
3. 每一个InputSplit对象会交给一个MapTask来执行
4. 切片中的每一行数据都会触发一次map方法，
5. map方法的输入的键默认为数据偏移量，输入的值为这一行的数据；输出的键以及值的类型根据业务确定
6. 在Barrier阶段，会将所有相同的键所对应的值放入一个ArrayList中，然后产生一个迭代器交给ReduceTask来执行
7. 在ReduceTask中，每一个键都会触发一次reduce方法
8. 将结果写到HDFS中

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

偶尔想起你

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
HDFS的MapReduce执行流程

1. 从HDFS中获取数据2. MapReduce首先会将输入的数据进行逻辑切片，每一个切片是一个InputSplit对象3. 每一个InputSplit对象会交给一个MapTask来执行4. 切片中的每一行数据都会触发一次map方法，5. map方法的输入的键默认为数据偏移量，输入的值为这一行的数据；输出的键以及值的类型根据业务确定6. 在Barrier阶段，会将所有相同的键所对应的值...
复制链接

扫一扫