头歌-第1关：MapReduce的编程开发-排序

最新推荐文章于 2024-05-07 08:39:08 发布

苹果橘子梨汽水

最新推荐文章于 2024-05-07 08:39:08 发布

阅读量1.8k

点赞数 24

文章标签： mapreduce 电脑大数据

本文链接：https://blog.csdn.net/2301_79646631/article/details/137278695

版权

本文介绍了如何使用MapReduce编程技术，根据用户行为CSV数据文件中的商品点击浏览行为，统计商品点击量并进行排序。重点讲解了排序过程，包括溢写阶段、归并排序，以及cleanup()方法的作用。

摘要由CSDN通过智能技术生成

任务描述

本关任务：根据用户行为数据，编写 MapReduce 程序来统计出商品点击量排行。

编程要求

根据提示，在右侧编辑器补充代码，计算得出商品点击量排行。

main 方法已给出，其中 Job 和输入输出路径已配置完成，无需更改；
map 和 reduce 的输入输出 key、value 已给出；
编程中直接写 map 与 reduce 过程的主要内容即可。

预期输出格式（按点击量从大到小）:

商品id,点击量
商品id,点击量
···
···

测试说明

平台会对你编写的代码进行测试，如果编写的 MapReduce 输出与预期一致，则通过。

注：出于显示原因，网页端的 mapreduce 的输出结果中制表符统一用逗号代替显示，但在实际 reduce 结果中 key\value 仍是原样制表符分割，这只是显示上的变化，不影响编程与评测结果。

开始你的任务吧，祝你成功！

代码如下：

package educoder;

import java.io.IOException;

import java.util.LinkedList;

import java.util.List;

import java.util.stream.Collectors;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**

* UserLoseDriver

public class ItemClickRankDriver {

public static class ThisMap extends Mapper<Object, Text, Text, IntWritable> {

private static IntWritable one = new IntWritable(1);

@Override

protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {

/*** 在这编写map内容 ****/

/********** Begin **********/

//1. 分割每行数据

String[] atts=value.toString().split(",");

//2. 得到商品id

String item=atts[1];

//3. 得到行为属性

String behavior=atts[3];

//4. 如果行为属性是 'pv'，则写入到map输出

if(behavior.equals("pv")){

context.write(new Text(item),one);

}

/********** End **********/

}

public static class ThisReduce extends Reducer<Text, IntWritable, Text, IntWritable> {

//对象实例，用来保存reduce方法中处理的数据

List<Object[]> list=new LinkedList<>();

@Override

protected void reduce(Text key, Iterable<IntWritable> values, Context context)

throws IOException, InterruptedException {

/*** 在这编写reduce内容 ****/

/********** Begin **********/

int sum=0;

for(IntWritable one:values){

sum+=one.get();

}

list.add(new Object[] {key.toString(),Integer.valueOf(sum)});

// 统计同key总数，把key和sum写入到list中

/********** End **********/

}

//cleanup方法，即reduce对象执行完所有的reduce方法后最后执行的方法

@Override

protected void cleanup(Reducer<Text, IntWritable, Text, IntWritable>.Context context)

throws IOException, InterruptedException {

list=list.stream().sorted((o1,o2) -> {return ((int)o1[1] - (int)o2[1]);}).collect(Collectors.toList());

for(int i=list.size()-1;i>=0;i--){

Object[] o=list.get(i);

context.write(new Text((String) o[0]),new IntWritable((int) o[1]));

}

/********** Begin **********/

/********** End **********/

}

public static void main(String[] args) throws Exception {

Configuration conf = new Configuration();

Job job = Job.getInstance(conf, "商品点击量排行");

job.setJarByClass(ItemClickRankDriver.class);

job.setMapperClass(ThisMap.class);

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(IntWritable.class);

job.setReducerClass(ThisReduce.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

苹果橘子梨汽水

关注

24
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

头歌-第1关：MapReduce的编程开发-排序

任务描述

相关知识

排序概述

数据文件格式说明

商品点击量排行

cleanup()方法

编程要求

测试说明