Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序（第二篇）

最新推荐文章于 2024-05-10 15:09:59 发布

2401_84121827

最新推荐文章于 2024-05-10 15:09:59 发布

阅读量833

点赞数 27

分类专栏：程序员文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/2401_84121827/article/details/137617597

版权

程序员专栏收录该内容

193 篇文章 0 订阅

订阅专栏

所有技术、实战教学文章总目录点击此处链接

目录

前言：

一、流程简介

二、创建Maven工程项目

（1）新建maven

（2）添加依赖

三、编写MapReduce程序

（1）自定义数据类

（2）Mapper类

（3）Reduce类

（4）主类（入口类）

四、编译打包jar上传

五、拷贝数据集

六、执行Jar包程序

Gitee仓库Hadoop项目下载地址

其他系列技术教学、实战开发

前言：

=======

在第一篇教学我们已经将主播的数据进行了初步的提取，但是数据看起来杂乱无章，这篇文章教大家如何对提取出来的数据进一步处理

一、流程简介

======

第一篇提取好的数据如下：

通过文本数据我们可以发现一个主播的id号有多条数据记录，那么我们要做的就是要把这些相同的id将他对应数据进行累计求和处理操作，同时对id进行一个升序操作，看起来更加整洁

这次涉及到统计求和、排序等操作，用到了Reduce，整体项目流程如下：

二、创建Maven工程项目

==============

（1）新建maven

打开IDEA，新建一个项目，，在左侧一栏选择maven工程，点击下一步

添加项目名称，点击完成

创建之后，右下角会弹出提示，选择Auto自动导入依赖（没有也没关系，待会添加依赖也会弹出）

（2）添加依赖

展开项目目录，编辑pom.xml配置文件，添加如下依赖

    <!-- Hadoop所需对应依赖包 -->

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-common</artifactId>

        <version>3.3.1</version>

    </dependency>

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-hdfs</artifactId>

        <version>3.3.1</version>

    </dependency>

    <dependency>

        <groupId>org.apache.hadoop</groupId>

        <artifactId>hadoop-client</artifactId>

        <version>3.3.1</version>

    </dependency>

</dependencies>

<build>

    <plugins>

        <!-- 编译打包项目的插件 -->

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-compiler-plugin</artifactId>

            <configuration>

                <source>6</source>

                <target>6</target>

            </configuration>

        </plugin>

    </plugins>

</build>

项目创建完毕

三、编写MapReduce程序

===============

如果对Map和Reduce对应阶段的任务和处理结果不熟悉的可以看我之前那一篇单词统计排序教程，有详细介绍

（1）自定义数据类

该类的作用：方便统计主播的指标数据，需要把这些字段整合到一个对象中，以便日后维护

新建一个VideoInfoWritable类继承Writable类，设置四个属性，自己补上get()和set()方法

public class VideoInfoWritable extends Writable {

private long gold; //金币

private long watchnumpv; //观看时长

private long follower; //粉丝数量

private long length; //总播放时长

}

复写Writable类的两个方法，一个readFileds输入数据，一个write输出数据

@Override

public void readFields(DataInput dataInput) throws IOException {

this.gold = dataInput.readLong();

this.watchnumpv = dataInput.readLong();

this.follower = dataInput.readLong();

this.length = dataInput.readLong();

}

@Override

public void write(DataOutput dataOutput) throws IOException {

dataOutput.writeLong(gold);

dataOutput.writeLong(watchnumpv);

dataOutput.writeLong(follower);

dataOutput.writeLong(length);

}

（2）Mapper类

该类的作用：对数据进行按行读取，切割获取对应字段数据，封装字段数据到（1）自定义的类对象中

新建一个videoInfoMap类继承Mapper类，复写mapper方法

public class VideoInfoMap extends Mapper<LongWritable, Text, Text, VideoInfoWritable> {

@Override

public void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {

    String line = v1.toString(); //读取清先之后的每一行数据

    String[] fields = line.split("\t"); //通过"\t"对数据进行切割

    String id = fields[0]; //获取主播的id

/**

     * 获取主播的其他数据

     * gold-------->>金币

     * watchnumpv-->>播放量

     * follower---->>粉丝

     * length------>>开播时长

*/

    long gold = Long.parseLong(fields[1]);

    long watchnumpv = Long.parseLong(fields[2]);

    long follower = Long.parseLong(fields[3]);

    long length = Long.parseLong(fields[4]);

    Text k2 = new Text();

    k2.set(id);

    // 封装到自定义的VideoInfoWritable类对象中

    VideoInfoWritable v2 = new VideoInfoWritable();

    v2.set(gold, watchnumpv, follower, length);

    context.write(k2, v2);

}

（3）Reduce类

该类的作用：遍历具有相同主播id的VideoInfoWritable类对象，获取对应的四个字段值，进行求和

新建一个videoInfoReduce类，继承Reduce类，复写reduce方法

public class VideoInfoReduce extends Reducer<Text,VideoInfoWritable, Text,VideoInfoWritable> {

@Override

protected void reduce(Text k2,Iterable<VideoInfoWritable> v2s,Context context) throws IOException,InterruptedException{

    // 从v2s中把相同的k2的value取出来，进行遍历，进行累加求和。

    long goldsum=0;

    long watchnumpvsum=0;

    long followersum=0;

    long lengthsum=0;

/**

     * v2s：相同主播id的对应对象集合（VideoInfoWritable类对象，有四个属性）

     * 遍历具有相同id的对象，获取对应四个字段值，进行求和

*/

    for(VideoInfoWritable v2:v2s){

        goldsum+=v2.getGold();

        watchnumpvsum+=v2.getWatchnumpv();

        followersum+=v2.getFollower();

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Android工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则近万的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Android移动开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Android开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Android）

最后送福利了，现在关注我可以获取包含源码解析，自定义View，动画实现，架构分享等。
内容难度适中，篇幅精炼，每天只需花上十几分钟阅读即可。
大家可以跟我一起探讨，有flutter—底层开发—性能优化—移动架构—资深UI工程师 —NDK相关专业人员和视频教学资料，还有更多面试题等你来拿

录播视频图.png

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！**

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Android）

[外链图片转存中…(img-rkDnwy9X-1712767981684)]

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

2401_84121827

关注

27
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序（第二篇）

通过文本数据我们可以发现一个主播的id号有多条数据记录，那么我们要做的就是要把这些相同的id将他对应数据进行累计求和处理操作，同时对id进行一个升序操作，看起来更加整洁。在第一篇教学我们已经将主播的数据进行了初步的提取，但是数据看起来杂乱无章，这篇文章教大家如何对提取出来的数据进一步处理。该类的作用：对数据进行按行读取，切割获取对应字段数据，封装字段数据到（1）自定义的类对象中。打开IDEA，新建一个项目，，在左侧一栏选择maven工程，点击下一步。展开项目目录，编辑pom.xml配置文件，添加如下依赖。
复制链接

扫一扫