目录
前言:
=======
在第一篇教学我们已经将主播的数据进行了初步的提取,但是数据看起来杂乱无章,这篇文章教大家如何对提取出来的数据进一步处理
一、流程简介
======
第一篇提取好的数据如下:
通过文本数据我们可以发现一个主播的id号有多条数据记录,那么我们要做的就是要把这些相同的id将他对应数据进行累计求和处理操作,同时对id进行一个升序操作,看起来更加整洁
这次涉及到统计求和、排序等操作,用到了Reduce,整体项目流程如下:
二、创建Maven工程项目
==============
(1)新建maven
打开IDEA,新建一个项目,,在左侧一栏选择maven工程,点击下一步
添加项目名称,点击完成
创建之后,右下角会弹出提示,选择Auto自动导入依赖(没有也没关系,待会添加依赖也会弹出)
(2)添加依赖
展开项目目录,编辑pom.xml配置文件,添加如下依赖
<!-- Hadoop所需对应依赖包 -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>3.3.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>3.3.1</version>
</dependency>
</dependencies>
<build>
<plugins>
<!-- 编译打包项目的插件 -->
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-compiler-plugin</artifactId>
<configuration>
<source>6</source>
<target>6</target>
</configuration>
</plugin>
</plugins>
</build>
项目创建完毕
三、编写MapReduce程序
===============
如果对Map和Reduce对应阶段的任务和处理结果不熟悉的可以看我之前那一篇 单词统计排序教程,有详细介绍
(1)自定义数据类
该类的作用:方便统计主播的指标数据,需要把这些字段整合到一个对象中,以便日后维护
新建一个VideoInfoWritable类继承Writable类,设置四个属性,自己补上get()和set()方法
public class VideoInfoWritable extends Writable {
private long gold; //金币
private long watchnumpv; //观看时长
private long follower; //粉丝数量
private long length; //总播放时长
}
复写Writable类的两个方法,一个readFileds输入数据,一个write输出数据
@Override
public void readFields(DataInput dataInput) throws IOException {
this.gold = dataInput.readLong();
this.watchnumpv = dataInput.readLong();
this.follower = dataInput.readLong();
this.length = dataInput.readLong();
}
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.writeLong(gold);
dataOutput.writeLong(watchnumpv);
dataOutput.writeLong(follower);
dataOutput.writeLong(length);
}
(2)Mapper类
该类的作用:对数据进行按行读取,切割获取对应字段数据,封装字段数据到(1)自定义的类对象中
新建一个videoInfoMap类继承Mapper类,复写mapper方法
public class VideoInfoMap extends Mapper<LongWritable, Text, Text, VideoInfoWritable> {
@Override
public void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
String line = v1.toString(); //读取清先之后的每一行数据
String[] fields = line.split("\t"); //通过"\t"对数据进行切割
String id = fields[0]; //获取主播的id
/**
* 获取主播的其他数据
* gold-------->>金币
* watchnumpv-->>播放量
* follower---->>粉丝
* length------>>开播时长
*/
long gold = Long.parseLong(fields[1]);
long watchnumpv = Long.parseLong(fields[2]);
long follower = Long.parseLong(fields[3]);
long length = Long.parseLong(fields[4]);
Text k2 = new Text();
k2.set(id);
// 封装到自定义的VideoInfoWritable类对象中
VideoInfoWritable v2 = new VideoInfoWritable();
v2.set(gold, watchnumpv, follower, length);
context.write(k2, v2);
}
}
(3)Reduce类
该类的作用:遍历具有相同主播id的VideoInfoWritable类对象,获取对应的四个字段值,进行求和
新建一个videoInfoReduce类,继承Reduce类,复写reduce方法
public class VideoInfoReduce extends Reducer<Text,VideoInfoWritable, Text,VideoInfoWritable> {
@Override
protected void reduce(Text k2,Iterable<VideoInfoWritable> v2s,Context context) throws IOException,InterruptedException{
// 从v2s中把相同的k2的value取出来,进行遍历,进行累加求和。
long goldsum=0;
long watchnumpvsum=0;
long followersum=0;
long lengthsum=0;
/**
* v2s:相同主播id的对应对象集合(VideoInfoWritable类对象,有四个属性)
* 遍历具有相同id的对象,获取对应四个字段值,进行求和
*/
for(VideoInfoWritable v2:v2s){
goldsum+=v2.getGold();
watchnumpvsum+=v2.getWatchnumpv();
followersum+=v2.getFollower();
lengthsum+=v2.getLength();
}
// 将求和统计好的封装进来,写入context中,交由Job主类打印输出
Text k3=k2;
VideoInfoWritable v3=new VideoInfoWritable();
v3.set(goldsum,watchnumpvsum,followersum,lengthsum);
context.write(k3,v3);
}
}
(4)主类(入口类)
学习交流
群内有许多来自一线的技术大牛,也有在小厂或外包公司奋斗的码农,我们致力打造一个平等,高质量的Android交流圈子,不一定能短期就让每个人的技术突飞猛进,但从长远来说,眼光,格局,长远发展的方向才是最重要的。
35岁中年危机大多是因为被短期的利益牵着走,过早压榨掉了价值,如果能一开始就树立一个正确的长远的职业规划。35岁后的你只会比周围的人更值钱。
《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,点击传送门,即可获取!
ntext.write(k3,v3);
}
}
(4)主类(入口类)
学习交流
[外链图片转存中…(img-fWDvHUP7-1715561576324)]
[外链图片转存中…(img-WiAbJfnx-1715561576327)]
群内有许多来自一线的技术大牛,也有在小厂或外包公司奋斗的码农,我们致力打造一个平等,高质量的Android交流圈子,不一定能短期就让每个人的技术突飞猛进,但从长远来说,眼光,格局,长远发展的方向才是最重要的。
35岁中年危机大多是因为被短期的利益牵着走,过早压榨掉了价值,如果能一开始就树立一个正确的长远的职业规划。35岁后的你只会比周围的人更值钱。
《Android学习笔记总结+移动架构视频+大厂面试真题+项目实战源码》,点击传送门,即可获取!