Hadoop经典案例Spark实现（三）——数据排序

最新推荐文章于 2024-03-16 13:36:01 发布

原创

最新推荐文章于 2024-03-16 13:36:01 发布 · 4.7k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#spark #hadoop #排序

Hadoop经典案例Spark实现（三）——数据排序

1、"数据排序"是许多实际任务执行时要完成的第一项工作，
比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础。
1）、需求描述
对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。
要求在输出中每行有两个间隔的数字，其中，第一个代表原始数据在原始数据集中的位次，第二个代表原始数据。

2）输入文件
file1：

file2：

file3：

26
54
6

样例输出：

1    2
2    6
3    15
4    22
5    26
6    32
7    32
8    54
9    92
10    650
11    654
12    756
13    5956
14    65223

3）设计思考
这个实例仅仅要求对输入数据进行排序，熟悉MapReduce过程的读者会很快想到在MapReduce过程中就有排序，是否可以利用这个默认的排序，
而不需要自己再实现具体的排序呢？答案是肯定的。

但是在使用之前首先需要了解它的默认排序规则。它是按照key值进行排序的，如果key为封装int的IntWritable类型，那么MapReduce按照数字大小对key排序，
如果key为封装为String的Text类型，那么MapReduce按照字典顺序对字符串排序