MapReduce编程:1.groupBy, 统计每月航班延迟到达的比例

MapReduce编程:1.groupBy, 统计每月航班延迟到达的比例

题目要求

航空公司数据集,每一行包括如下数据
在这里插入图片描述
统计每月航班延迟到达的比例

分析
  1. 如果作为一个普通数学题,我们解题的步骤是先统计每个月的航班总数,然后统计每个月延时的航班的总数,然后做除法,所以放在计算机里面,我们可以在统计每个月航班总数的同时,也记录下延时的航班总数,然后做除法
  2. 那么利用MapReduce的思维,先进行map(任务分解),然后reduce(结果汇总)
  3. 对于map,要做的就是将任务分解,输入肯定是原始的文本,而输出的就是<月份,1>的键值对(因为MapReduce是一行一行读取数据,一行肯定只有一条数据,所以值为1),但是发现,值为1没办法区分是否延时,所以我们可以采用两个数进行区分,比如我使用的是1代表未延时,0表示延时(也可以使用别的数字),所以我的map就会出现两种结果,如果延时,结果为<月份,0>;如果未延时,结果为<月份,1>
  4. 对于reduce,要做的是将结果汇总(其实中间还有一步shuffle的过程,是将map的结果进行分类),输入是来自分类的map的处理结果,就是<月份,0和1的列表>,输出就是<月份,延时比例>
  5. 听懵了?没关系,下面用图和代码来解释
准备工作
  • ubuntu14环境
  • 已经启动的hadoop
  • 已经安装好hadoop插件的eclipse
  • 一个原始数据集

对于前三个东西,在上一篇博客已经介绍过了,对于最后一个,要自己准备

上一篇博客:https://blog.csdn.net/Dongroot/article/details/88562502

(下面的操作都是在ubuntu下进行)原始数据集怎么准备,在桌面新建一个txt文档,内容为。。。。难得写了,就是最上面那张图,然后以英文逗号隔开,一行一条记录,比如

在这里插入图片描述
我们需要关注的就是图中框起来的三列,分别是月份,飞机真实到达时间和原定到达时间,所以其他列的数据都是没用的,可以不写注意:一定一行只能是一条记录,然后用英文逗号隔开数据,至于能不能用中文,自己去试吧,我不知道。

你以为结束了吗,还没有,现在要把这个文件上传到你的HDFS上去,自己新建目录,然后上传,可以在终端使用命令(hadoop fs -copyFromLocal 文件名 HDFS目录),也可以打开eclipse,在左侧那个DFS Locations操作。

写代码

东西都准备好了,开始上代码

  1. 首先新建MapReduce project,然后新建包,首先新建Mapper,需要解释的是,我的map的输入是Object和Text,输出是Text和Text,所以在后面我的Reduces的输入必须是Text和Text,输出是Text和Text,驱动程序的job.setOutputKeyClass(Text.class);和 job.setOutputValueClass(Text.class);里面的类也得对应,如果要改的话,也要对应着改,我在后面再说吧
import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/**
 * 
 * @author Dong
 *
 */
public class MyMapper extends Mapper<Object, Text, Text, Text> {

	@Override
	protected void map(Object key, Text value, Mapper<Object, Text, Text, Text>.Context context)
			throws IOException, InterruptedException {
		/*
		 * map输入:
		 *   key1:当前记录在文件中的位置   
		 *   value1:原始文本
		 *  
		 *  map输出:
		 *    key2:月份
		 *    value2:航班状态,1表示未延时,0表示延时
		 */
		Text text_1 = new Text("1");
		Text text_0 = new Text("0");
		Text key2 = new Text();

		//  切割原始文本,获取月份
		String[] values = value.toString().split(",");
		key2.set(values[2]);
		// 对比到达时间和原本到达时间,超时为0,未超时为1
		int a = values[7].compareTo(values[8]);
		if(a > 0) {
			// 说明values[7]>values[8],即延迟
			context.write(key2,text_0 );
		}
		else {
			// 没有延迟
			context.write(key2, text_1);
		}
	}
}

注释我觉得已经很详细了,没必要再解释了,特意把上面的导包放出来,千万别导错包

  1. 继续创建Reduces类
import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * 
 * @author Dong
 *
 */
public class MyReducer extends Reducer<Text, Text, Text, Text> {

	@Override
	protected void reduce(Text arg0, Iterable<Text> arg1,
			Reducer<Text, Text, Text, Text>.Context arg2) throws IOException, InterruptedException {
		/*
		 * reduce输入:
		 *   key1:月份
		 *   value1:航班状态,1表示未延时,0表示延时
		 *   
		 * reduce输出:
		 *   key2:月份
		 *   value2:延迟比例(该月份0的记录数/该月份所有的记录数)
		 */
		int sum = 0;  
		int sum_0 = 0;  
		
		// 统计0和1的比例
		for(Text i : arg1) {
			sum++;
			if("0".equals(i.toString())) {
				sum_0++;
			}
		}
		String string = ""+sum_0+"/"+sum;
		arg2.write(arg0, new Text(string));
	}
}

在这里可以看出来,我最后的输出是要一个x/y的形式,所以是一个字符串的,而不是数字,所以我要使用Text类型。

  1. 创建驱动程序
import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

/**
 * 
 * @author Dong
 *
 */
public class GroupBy {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		String[] otherArgs=new String[]{"hdfs://localhost:9000/user/hduser/groupby/input","hdfs://localhost:9000/user/hduser/groupby/output"}; 
		Job job = Job.getInstance(new Configuration());
        job.setJarByClass(GroupBy.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
//        job.setCombinerClass(MyReducer.class);
        
        FileInputFormat.setInputPaths(job, new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        
        boolean status = job.waitForCompletion(true);
        
       if(status) {
    	   System.exit(0);
       }
       else {
    	   System.exit(1);
       }
	}

}

驱动程序没什么好说的,但是看到我注释了一行,后面再解释

  1. 和上次一样,把core-site.xml和hdfs-site.xml文件放在src目录下(log4j随便,没有的话,控制台就不会打印那么多东西,但是不影响结果),然后右键,Run as,Run Hadoop,运行前记得写成你自己的input路径和output路径,不出意外应该是成功的,放一张成功的结果图

在这里插入图片描述
可以对照我上面那个原始数据集的内容,是正确的

遇到的问题
  • 首先说我自己遇到的问题,我在有一次启动的时候,报了一个jvm内存空间不足,原因是当时我开了火狐还有还几个文件夹,本身虚拟机的内存也不大,所以jvm所需的内存就不够了,解决方案很简单,把别的开着的应用关了就OK了
  • 然后说驱动程序里面那行注释,那个的意思是设置Combiner的程序就是reduce的程序,Combiner的作用就是,在集群的环境下,多节点之间数据是通过网络流通的,所以没有Combiner,map的结果会一条一条的传送,然后去reduce,而网络速度是不可控的,有Combiner之后,map的结果会先在本地机上进行一次reduce,然后把reduce的结果通过网络传送,再去和别的机器的结果进行reduce,这样速度就会快很多,而我为什么注释掉呢,因为首先我们是伪分布式,没有别的节点,我只是想试一下,没想到一试就出了问题,因为我的reduce的程序里面是对字符0和字符1进行计数,然后输出x/y形式的字符串,在Combiner的时候会执行一次reduce,这时结果就已经是我要的结果了,但是因为是Combiner,所以还会传送一次数据,这时候在再通过reduce就会导致没有字符0和字符1的存在,所以结果出错,这个问题只会在我的程序里有,你们可以试试用DoubleWritable类型作为输出,可能再使用Combiner就不会有问题了吧,还有方法就是改进reduce程序,或者再去写一个combiner程序,这样也是可以的
  • 程序挺简单的,我在程序中间输出了一次,看到了中间的结果,所以放几张图出来
    在这里插入图片描述
    这实际上是map后shuffle的结果,shuffle会将每一行的记录的统计结果,像这样,根据key进行一个分类,但是不会合并,只会分类
    在这里插入图片描述
    这就是reduce将shuffle的结果进行合并,得到最终结果
总结
  • 程序挺简单的,只是从没接触过大数据的人还是蛮费劲的,主要是要理解程序的运作
  • 这次是纯原创,要说借鉴的话,那就是借鉴了一下老师的思路了
  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值