Mapreduce实例（三）：排序

最新推荐文章于 2023-11-21 22:31:05 发布

VIP文章 Bee_Darker

最新推荐文章于 2023-11-21 22:31:05 发布

阅读量2.5k

点赞数 4

分类专栏：大数据文章标签：大数据 mapreduce

本文链接：https://blog.csdn.net/Bee_Darker/article/details/106474458

版权

系统环境

Linux Ubuntu 16.04

jdk-7u75-linux-x64

hadoop-2.6.0-cdh5.4.5

hadoop-2.6.0-eclipse-cdh5.4.5.jar

eclipse-java-juno-SR2-linux-gtk-x86_64

任务内容

在电商网站上，当我们进入某电商页面里浏览商品时，就会产生用户对商品访问情况的数据，名为goods_visit1，goods_visit1中包含（商品id ，点击次数）两个字段，内容以“\t”分割，由于数据量很大，所以为了方便统计我们只截取它的一部分数据，内容如下：

商品id  点击次数  
1010037 100  
1010102 100  
1010152 97  
1010178 96  
1010280 104  
1010320 103  
1010510 104  
1010603 96  
1010637 97

要求我们编写mapreduce程序来对商品点击次数有低到高进行排序。

实验结果数据如下：

点击次数 商品ID  
96  1010603  
96  1010178  
97  1010637  
97  1010152  
100 1010102  
100 1010037  
103 1010320  
104 1010510  
104 1010280

任务步骤

1.切换到/apps/hadoop/sbin目录下，开启Hadoop。

cd /apps/hadoop/sbin  
./start-all.sh

2.在Linux本地新建/data/mapreduce3目录。

mkdir -p /data/mapreduce3

3.在Linux中切换到/data/mapreduce3目录下，用wget命令从http://192.168.1.100:60000/allfiles/mapreduce3/goods_visit1网址上下载文本文件goods_visit1。

cd /data/mapreduce3
wget http://192.168.1.100:60000/allfiles/mapreduce3/goods_visit1

然后在当前目录下用wget命令从http://192.168.1.100:60000/allfiles/mapreduce3/hadoop2lib.tar.gz网址上下载项目用到的依赖包。

wget http://192.168.1.100:60000/allfiles/mapreduce3/hadoop2lib.tar.gz

将hadoop2lib.tar.gz解压到当前目录下。

tar zxvf hadoop2lib.tar.gz

4.首先在HDFS上新建/mymapreduce3/in目录，然后将Linux本地/data/mapreduce3目录下的goods_visit1文件导入到HDFS的/mymapreduce3/in目录中。

hadoop fs -mkdir -p /mymapreduce3/in
hadoop fs -put /data/mapreduce3/goods_visit1 /mymapreduce3/in

5.打开Eclipse，新建Java Project项目，项目名为mapreduce3。
在这里插入图片描述
在mapreduce3项目下新建包，包名为mapreduce，在mapreduce包下新建类，类名为OneSort。

6.添加项目所需依赖的jar包，右键单击项目新建一个文件夹，名为hadoop2lib，用于存放项目所需的jar包，将/data/mapreduce3目录下hadoop2lib文件夹中的所有jar包，拷贝到eclipse中mapreduce3项目的hadoop2lib目录下，选中hadoop2lib目录下所有jar包，单击右键，选择Build Path→Add to Build Path。

在这里插入图片描述
7.编写Java代码，并描述其设计思路

在MapReduce过程中默认就有对数据的排序。它是按照key值进行排序的，如果key为封装int的IntWritable类型，那么MapReduce会按照数字大小对key排序，如果Key为封装String的Text类型，那么MapReduce将按照数据字典顺序对字符排序。在本例中我们用到第一种，key设置为IntWritable类型，其中MapReduce程序主要分为Map部分和Reduce部分。

Map部分代码

public static class Map extends Mapper<Object,Text,IntWritable,Text>{
   
		private static Text goods=new Text();
		private static IntWritable num=new IntWritable()<