Hadoop的一点点积累

最新推荐文章于 2021-04-16 00:10:57 发布

king_a_123

最新推荐文章于 2021-04-16 00:10:57 发布

阅读量226

点赞数

本文链接：https://blog.csdn.net/king_a_123/article/details/53081658

版权

Hadoop简单实现全排序
   基础知识：
   1. TeraSort思想：

   关于terasort的文章很多，我没有找到那篇经典的原创。大体思想可以参看：http://hi.baidu.com/dt_zhangwei/item/c2a80032c7dbc5ff96f88dbf

   我的理解：

   （1）如果reducer的个数为1，那么输出一定是一个文件（part-r-00000），hadoop内部可以保证输出时已经排序好的。

          这时：如果key是Text类型，按字典序排好;如果key是IntWriteable类型，按整形排好；

   （2）如果reducer的个数大于1，那么可以保证的是每一个reducer的输出是排好序的，但是不同reducer的输出不能保证。若想实现全排序，我们只需保证：到第0个reducer的数据的最后一项一定小于到第1个reducer的数据的第一项，以此类推，到第n-1个reducer的数据的最后一项一定小于到第n个reducer的数据的第一项（假设我们job.setNumReduceTasks(n)，即设定reduce任务数为n个，且按升序来排序）。

   那么如何实现呢？
       分为两步：取样+Partition对每条数据做标记（即发往哪个reducer做处理）

   默认情况下会对每个分片中的每行数据得到一个形如<Key=该行的起始位置：LongWritable，Value=该行的内容的：Text>的KeyValue对，我们需要将这个KeyValue对转化成我们想要的形式<Key=该行内容：IntWritable，Value=空字符串：Text>，所以如上重写了next函数。