MapReduce编程：1.groupBy, 统计每月航班延迟到达的比例

最新推荐文章于 2021-06-27 13:18:25 发布

ye_xiao_dong

最新推荐文章于 2021-06-27 13:18:25 发布

阅读量2.9k

点赞数 6

分类专栏：大数据文章标签： MapReduce groupby

本文链接：https://blog.csdn.net/dongroot/article/details/88571680

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

MapReduce编程：1.groupBy, 统计每月航班延迟到达的比例

题目要求

航空公司数据集，每一行包括如下数据
在这里插入图片描述
统计每月航班延迟到达的比例

分析

如果作为一个普通数学题，我们解题的步骤是先统计每个月的航班总数，然后统计每个月延时的航班的总数，然后做除法，所以放在计算机里面，我们可以在统计每个月航班总数的同时，也记录下延时的航班总数，然后做除法
那么利用MapReduce的思维，先进行map（任务分解），然后reduce（结果汇总）
对于map，要做的就是将任务分解，输入肯定是原始的文本，而输出的就是<月份，1>的键值对（因为MapReduce是一行一行读取数据，一行肯定只有一条数据，所以值为1），但是发现，值为1没办法区分是否延时，所以我们可以采用两个数进行区分，比如我使用的是1代表未延时，0表示延时（也可以使用别的数字），所以我的map就会出现两种结果，如果延时，结果为<月份，0>；如果未延时，结果为<月份，1>
对于reduce，要做的是将结果汇总（其实中间还有一步shuffle的过程，是将map的结果进行分类），输入是来自分类的map的处理结果，就是<月份，0和1的列表>，输出就是<月份，延时比例>
听懵了？没关系，下面用图和代码来解释

准备工作

ubuntu14环境
已经启动的hadoop
已经安装好hadoop插件的eclipse
一个原始数据集

对于前三个东西，在上一篇博客已经介绍过了，对于最后一个，要自己准备

上一篇博客：https://blog.csdn.net/Dongroot/article/details/88562502

（下面的操作都是在ubuntu下进行）原始数据集怎么准备，在桌面新建一个txt文档，内容为。。。。难得写了，就是最上面那张图，然后以英文逗号隔开，一行一条记录，比如

在这里插入图片描述
我们需要关注的就是图中框起来的三列，分别是月份，飞机真实到达时间和原定到达时间，所以其他列的数据都是没用的，可以不写注意：一定一行只能是一条记录，然后用英文逗号隔开数据，至于能不能用中文，自己去试吧，我不知道。

你以为结束了吗，还没有，现在要把这个文件上传到你的HDFS上去，自己新建目录，然后上传，可以在终端使用命令（hadoop fs -copyFromLocal 文件名 HDFS目录），也可以打开eclipse，在左侧那个DFS Locations操作。

写代码

东西都准备好了，开始上代码

首先新建MapReduce project，然后新建包，首先新建Mapper，需要解释的是，我的map的输入是Object和Text，输出是Text和Text，所以在后面我的Reduces的输入必须是Text和Text，输出是Text和Text，驱动程序的job.setOutputKeyClass(Text.class);和 job.setOutputValueClass(Text.class);里面的类也得对应，如果要改的话，也要对应着改，我在后面再说吧

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * 
 * @author Dong
 *
 */
public class MyMapper extends Mapper<Object, Text, Text, Text> {

	@Override
	protected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)
			throws IOException, InterruptedException {
		/*
		 * map输入：
		 *   key1：当前记录在文件中的位置   
		 *   value1：原始文本
		 *  
		 *  map输出：
		 *    key2：月份
		 *    value2：航班状态，1表示未延时，0表示延时
		 */
		Text text_1 = new Text("1");
		Text text_0 = new Text("0");
		Text key2 = new Text();

		//  切割原始文本，获取月份
		String[] values = value.toString().split(",");
		key2.set(values[2]);
		// 对比到达时间和原本到达时间，超时为0，未超时为1
		int a = values[7].compareTo(values[8]);
		if(a > 0) {
			// 说明values[7]>values[8]，即延迟
			context.write(key2,text_0 );
		}
		else {
			// 没有延迟
			context.write(key2, text_1);
		}
	}
}

注释我觉得已经很详细了，没必要再解释了，特意把上面的导包放出来，千万别导错包

继续创建Reduces类

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * 
 * @author Dong
 *
 */
public class MyReducer extends Reducer<Text, Text, Text, Text> {

	@Override
	protected void reduce(Text arg0, Iterable<Text> arg1,
			Reducer<Text, Text, Text, Text>.Context arg2) throws IOException, InterruptedException {
		/*
		 * reduce输入：
		 *   key1：月份
		 *   value1：航班状态，1表示未延时，0表示延时
		 *   
		 * reduce输出：
		 *   key2：月份
		 *   value2：延迟比例（该月份0的记录数/该月份所有的记录数）
		 */
		int sum = 0;  
		int sum_0 = 0;  
		
		// 统计0和1的比例
		for(Text i : arg1) {
			sum++;
			if("0".equals(i.toString())) {
				sum_0++;
			}
		}
		String string = ""+sum_0+"/"+sum;
		arg2.write(arg0, new Text(string));
	}
}

在这里可以看出来，我最后的输出是要一个x/y的形式，所以是一个字符串的，而不是数字，所以我要使用Text类型。

创建驱动程序

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 * 
 * @author Dong
 *
 */
public class GroupBy {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		String[] otherArgs=new String[]{"hdfs://localhost:9000/user/hduser/groupby/input","hdfs://localhost:9000/user/hduser/groupby/output"}; 
		Job job = Job.getInstance(new Configuration());
        job.setJarByClass(GroupBy.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
//        job.setCombinerClass(MyReducer.class);
        
        FileInputFormat.setInputPaths(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        
        boolean status = job.waitForCompletion(true);
        
       if(status) {
    	   System.exit(0);
       }
       else {
    	   System.exit(1);
       }
	}

}

驱动程序没什么好说的，但是看到我注释了一行，后面再解释

和上次一样，把core-site.xml和hdfs-site.xml文件放在src目录下（log4j随便，没有的话，控制台就不会打印那么多东西，但是不影响结果），然后右键，Run as，Run Hadoop，运行前记得写成你自己的input路径和output路径，不出意外应该是成功的，放一张成功的结果图

在这里插入图片描述
可以对照我上面那个原始数据集的内容，是正确的

遇到的问题

首先说我自己遇到的问题，我在有一次启动的时候，报了一个jvm内存空间不足，原因是当时我开了火狐还有还几个文件夹，本身虚拟机的内存也不大，所以jvm所需的内存就不够了，解决方案很简单，把别的开着的应用关了就OK了
然后说驱动程序里面那行注释，那个的意思是设置Combiner的程序就是reduce的程序，Combiner的作用就是，在集群的环境下，多节点之间数据是通过网络流通的，所以没有Combiner，map的结果会一条一条的传送，然后去reduce，而网络速度是不可控的，有Combiner之后，map的结果会先在本地机上进行一次reduce，然后把reduce的结果通过网络传送，再去和别的机器的结果进行reduce，这样速度就会快很多，而我为什么注释掉呢，因为首先我们是伪分布式，没有别的节点，我只是想试一下，没想到一试就出了问题，因为我的reduce的程序里面是对字符0和字符1进行计数，然后输出x/y形式的字符串，在Combiner的时候会执行一次reduce，这时结果就已经是我要的结果了，但是因为是Combiner，所以还会传送一次数据，这时候在再通过reduce就会导致没有字符0和字符1的存在，所以结果出错，这个问题只会在我的程序里有，你们可以试试用DoubleWritable类型作为输出，可能再使用Combiner就不会有问题了吧，还有方法就是改进reduce程序，或者再去写一个combiner程序，这样也是可以的
程序挺简单的，我在程序中间输出了一次，看到了中间的结果，所以放几张图出来

这实际上是map后shuffle的结果，shuffle会将每一行的记录的统计结果，像这样，根据key进行一个分类，但是不会合并，只会分类

这就是reduce将shuffle的结果进行合并，得到最终结果