MapReduce中的并行度机制

mapreduce 的并行度机制

并行度机制是:maptask reducetask 个数决定机制。多个task一起运行即为并行。

maptask 并行度机制:逻辑规划 、逻辑切片。

逻辑切片发生的时间:

在java代码中,程序在未提交之前,都是在驱动类的main方法中执行,提交之后会在本地环境或者yarn中执行。

如果在提交以后进行切片,程序提交完紧接着就是执行maptask,来不及进行切片。

所以这个逻辑切片应该在客户端驱动类提交(job.submit())作业(job)前,进行。


逻辑切片发生的地点:

未提交,所以在驱动类的main方法中进行


逻辑切片中的参与者:

首先是需要处理的目标,即输入的目录:例如:FileInputformat.setIntputPaths(job,new Path(xxx))

然后是读数据的组件,TextInputFormat的父类FileInputFormat.getSplits()


逻辑切片中的规则:

对待处理目录文件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值