java二次排序_java mapreduce二次排序

最新推荐文章于 2021-02-26 15:36:37 发布

记忆中的你dn

最新推荐文章于 2021-02-26 15:36:37 发布

阅读量110

点赞数

文章标签： java二次排序

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35548251/article/details/114618286

版权

目的：

二次排序就是有下面的数据

a 3

a 1

a 100

c 1

b 2

如果只按照abc排序就会变成

a 3

a 1

a 100

b 2

c 1

我们希望是第二列也参与排序

a 1

a 3

a 100

b 2

c 1

创建Maven项目

配置POM文件

我们

我们自定义Writable类，方便我们序列化

添加属性代表key-value的两个部分

编写构造方法

编写一个set方法，方便我们使用

编写序列化和反序列化方法

编写比较方法

创建Mapper，注意输出的部分是自己创建的数据类型

编写内容

创建Comparator类，自定义分组

编写代码

创建Partition类，自定义分区类

创建Reduce类

编写内容

创建主类，完成主类的编写

其中自定义部分的类，我们放入到主方法中

自定义分区类和自定义分组类

准备数据源

我们将项目打包上传到Linux上

启动Hadoop

将数据上传到HDFS上

hdfs dfs -mkdir /secondSort

hdfs dfs -put /data/secondSort/data.txt /secondSort/

hdfs dfs -ls /secondSort/

我们执行我们的jar

yarn jar /data/secondSort/secondSort.jar com.xlglvc.xxx.mapredece.secondSort.SecondSortDriver /secondSort/data.txt /secondSortoutput

出现问题：

经过排查，发现是我的数据不是用\t隔开的，于是重新处理数据

然后删除HDFS上的data.txt，将新的data.txt文件上传，重新执行jar文件，我们观看结果

然后我们查看生成的文件，是按照我们预想的结果完成了二次排序

记忆中的你dn

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。