mapper排序_完成功能MapReduce驱动两个job、二次排序、求Url的topN

最新推荐文章于 2024-05-05 13:37:53 发布

weixin_39620578

最新推荐文章于 2024-05-05 13:37:53 发布

阅读量101

点赞数

文章标签： mapper排序

本文链接：https://blog.csdn.net/weixin_39620578/article/details/112070501

版权

本文介绍了如何使用MapReduce实现二次排序以及求Url的TopN。通过实现RawComparator接口来完成排序功能，并详细讲解了job2的开发框架。

摘要由CSDN通过智能技术生成

“脑子里想法，总是想去代码实现”

//用mapreduce来实现下面需求？
//现在有10个文件夹,每个文件夹都有1000000个url.现在让你找出top1000000url。
//方法一：
//        运用2个job，第一个job直接用filesystem读取10个文件夹作为map输入，url做key，

reduce计算url的sum，
//        下一个job map用url作key，运用sum作二次排序，reduce中取top10000000
//        1：首先进行wordcount计算
//        2：进行二次排序
//        如何启动两个job代码如下：

—

实现二次排序RawComparator接口

他与WritableComparator和Deserializer的关系图

—

开发源码(job2开发只提供了框架)

package demo03;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.RawComparator;import org.apache.hadoop.io.Text;import org.apache.hadoop.io.WritableUtils;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.Mapper;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.jobcontrol.ControlledJob;import org.apache.hadoop.mapreduce.lib.jobcontrol.JobControl;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;import java.util.Arrays;import java.util.StringTokenizer;/**
 * @author 张泰
 * @Version v 1.0

最低0.47元/天解锁文章

weixin_39620578

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫