MapReduce编程:1.groupBy, 统计每月航班延迟到达的比例

MapReduce编程:1.groupBy, 统计每月航班延迟到达的比例

题目要求

航空公司数据集,每一行包括如下数据
在这里插入图片描述
统计每月航班延迟到达的比例

分析
  1. 如果作为一个普通数学题,我们解题的步骤是先统计每个月的航班总数,然后统计每个月延时的航班的总数,然后做除法,所以放在计算机里面,我们可以在统计每个月航班总数的同时,也记录下延时的航班总数,然后做除法
  2. 那么利用MapReduce的思维,先进行map(任务分解),然后reduce(结果汇总)
  3. 对于map,要做的就是将任务分解,输入肯定是原始的文本,而输出的就是<月份,1>的键值对(因为MapReduce是一行一行读取数据,一行肯定只有一条数据,所以值为1),但是发现,值为1没办法区分是否延时,所以我们可以采用两个数进行区分,比如我使用的是1代表未延时,0表示延时(也可以使用别的数字),所以我的map就会出现两种结果,如果延时,结果为<月份,0>;如果未延时,结果为<月份,1>
  4. 对于reduce,要做的是将结果汇总(其实中间还有一步shuffle的过程,是将map的结果进行分类),输入是来自分类的map的处理结果,就是<月份,0和1的列表>,输出就是<月份,延时比例>
  5. 听懵了?没关系,下面用图和代码来解释
准备工作
  • ubuntu14环境
  • 已经启动的hadoop
  • 已经安装好hadoop插件的eclipse
  • 一个原始数据集

对于前三个东西,在上一篇博客已经介绍过了,对于最后一个,要自己准备

上一篇博客:https://blog.csdn.net/Dongroot/article/details/88562502

(下面的操作都是在ubuntu下进行)原始数据集怎么准备,在桌面新建一个txt文档,内容为。。。。难得写了,就是最上面那张图,然后以英文逗号隔开,一行一条记录,比如

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值