![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 71
梵圣
这个作者很懒,什么都没留下…
展开
-
MR之join
1、reduce joinbeanpackage reduce_join;import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;public class DeliverBean implements Writable { private String userId; private String po原创 2021-09-21 14:44:16 · 116 阅读 · 0 评论 -
MR之排序
1、MR 中的排序MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑.上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。MapTask它会将处理的结果暂时放到环形缓冲区中,当环形缓冲区使用率达到一定阈值后,再对缓冲区中的数据进行一次快速排序,并将这些有序数据溢写到磁盘上,溢写完毕后,它会对磁盘上所有文件进行归并排序。ReduceTask 当所有数据拷贝完毕后,ReduceTask统-对内存原创 2021-09-20 18:48:59 · 1058 阅读 · 0 评论 -
MR 之shuffle
1、MapTask 运行机制详细步骤:首先,读取数据组件InputFormat(默认TextInputFormat)会通过getSplits方法对输入目录中文件进行逻辑切片规划得到splits,有多少个split就对应启动多少个MapTask。split与block的对应关系默认是一对一。将输入文件切分为splits之后,由RecordReader对象(默认LineRecordReader)进行读取,以\n作为分隔符,读取一行数据,返回<key,value>。Key表示每原创 2021-09-20 15:07:22 · 165 阅读 · 0 评论