生产实习Day3-手机流量分析项目1

屋顶橙子味cheng

已于 2024-06-19 23:10:52 修改

阅读量132

点赞数 9

文章标签：大数据 hadoop

于 2024-06-13 14:32:51 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62223331/article/details/139650142

版权

文章目录

1.需求

统计每个手机号上行流量和、下行流量和、总流量和（上
行流量和+下行流量和）,并且：将统计结果按照手机号的前缀
进行区分，并输出到不同的输出文件中去。

13* ==> …
15* ==> …
other ==> …

其中，access.log数据文件第二个字段：手机号
倒数第三个字段：上行流量
倒数第二个字段：下行流量

2.思路

根据手机号进行分组，然后把该手机号对应的上下行流量加
起来

Mapper: 把手机号、上行流量、下行流量拆开
把手机号作为key，把Access作为value写出去

Reducer形如：(“手机号”,<Access,Access>)

自定义分区类（需要继承Partitioner抽象类），并覆写

getPartition()方法

3.开发步骤

3.1 自定义Access类

包括属性：手机号、上行流量、下行流量、总流量

3.2 自定义Map任务类（Map Task）
对每一行日志内容进行拆分，Map输出数据为：
phone==>Access(手机号,该行手机号的上行流量,该行手机号的
下行流量)

3.3编写Reduce任务类（Reduce Task）
对每个手机号的流量进行汇总，Map输出数据为：

phone==>Access(手机号,上行流量和,下行流量和)

也可以优化为：

phone==>Access(NullWritable对象,上行流量和,下行流量和)

3.4编写分区处理类

继承org.apache.hadoop.mapreduce.Partitioner类，
"13"开头的手机号交给第一个ReduceTask任务处理，最终
输出到0号分区，
"15"开头的手机号交给第二个ReduceTask任
务处理，最终输出到1号分区，其余手机号交给第三个

ReduceTask任务处理，最终输出到2号分区。

屋顶橙子味cheng

关注

9
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
生产实习Day3-手机流量分析项目1

phone==>Access(NullWritable对象,上行流量和,下行流量和)phone==>Access(手机号,该行手机号的上行流量,该行手机号的。Reducer形如：(“手机号”,)phone==>Access(手机号,上行流量和,下行流量和)行流量和+下行流量和）,并且：将统计结果按照手机号的前缀。根据手机号进行分组，然后把该手机号对应的上下行流量加。统计每个手机号上行流量和、下行流量和、总流量和（上。包括属性：手机号、上行流量、下行流量、总流量。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。