MapReduce
文章平均质量分 73
滚小滚
这个作者很懒,什么都没留下…
展开
-
maptask的运行机制,压缩机制,join算法
整体流程: 第一步:客户端将每一个block块进行逻辑切分,每一个切片对应一个filespilt,split包含的信息:分片的元数据信息,包含起始位置,长度,和所在节点列表等 第二步:设置map类,map类通过Textinputformat类按行读取切片信息,组成键值对k1,v1 第三步:map函数对键值对进行计算,输出<key,value,partition(分区号)>格式数据,partition指定该键值对由哪个reducer进行处理。通过分区器,key的hashcode对reducer个数原创 2021-03-31 15:07:51 · 116 阅读 · 0 评论 -
MapReduce天龙八部
天龙八部: map阶段: 第一步:读取文件,解析成key,value对,形成k1,v1; 第二步:接受k1,v1,自定义逻辑,转换成新的k2,v2,进行输出 shuffle阶段: 第三步:分区: 相同key的value值发送到同一个reduce中去,key合并,value形成一个集合 第四步:排序 默认按照自字段顺序进行排序 第五步:规约 第六步:分组 reduce阶段 第七步:接受k2,v2 自定义reduce逻辑,转换成新的k3,v3进行输出 第八步:将k3,v3进行输出 注意: 上面八个任务都是单原创 2021-03-08 17:08:42 · 467 阅读 · 0 评论