Hadoop经典案例Spark实现（六）——求最大的K个值并排序

最新推荐文章于 2023-02-22 11:45:00 发布

kwu_ganymede

最新推荐文章于 2023-02-22 11:45:00 发布

阅读量2.8k

点赞数 2

分类专栏： Spark Hadoop Hadoop经典案例Spark实现文章标签： hadoop spark topN

本文链接：https://blog.csdn.net/kwu_ganymede/article/details/50484025

版权

本文通过实例讲解如何使用Spark解决Hadoop中的经典问题——找出最大的K个支付值并进行排序。首先展示了数据格式，然后详细介绍了如何利用MapReduce来实现这一功能，重点在于自定义输入类型以实现降序排列。

摘要由CSDN通过智能技术生成

Hadoop经典案例Spark实现（六）——求最大的K个值并排序

一、需求分析

#orderid,userid,payment,productid

求topN的payment值

a.txt

1,9819,100,121
2,8918,2000,111
3,2813,1234,22
4,9100,10,1101
5,3210,490,111
6,1298,28,1211
7,1010,281,90
8,1818,9000,20

b.txt

100,3333,10,100
101,9321,1000,293
102,3881,701,20
103,6791,910,30
104,8888,11,39

预测结果：（求 Top N=5 的结果）

二、MapReduce实现

因为MR默认是升序的因此要自定义输入类型

自定义倒充的整型输入

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.WritableComparable;

public class MyIntWritable implements WritableComparable<MyIntWritable> {
	private Integer num;

	public MyIntWrit

最低0.47元/天解锁文章

kwu_ganymede

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录