1. 从HDFS中获取数据
2. MapReduce首先会将输入的数据进行逻辑切片,每一个切片是一个InputSplit对象
3. 每一个InputSplit对象会交给一个MapTask来执行
4. 切片中的每一行数据都会触发一次map方法,
5. map方法的输入的键默认为数据偏移量,输入的值为这一行的数据;输出的键以及值的类型根据业务确定
6. 在Barrier阶段,会将所有相同的键所对应的值放入一个ArrayList中,然后产生一个迭代器交给ReduceTask来执行
7. 在ReduceTask中,每一个键都会触发一次reduce方法
8. 将结果写到HDFS中
HDFS的MapReduce执行流程
最新推荐文章于 2021-12-24 20:37:07 发布