Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序（第二篇）(3)，android开发基础课程

本文链接：https://blog.csdn.net/2401_84149505/article/details/137494726

本文详细介绍了如何使用MapReduce编程模型，通过自定义VideoInfoWritable类和Mapper、Reducer类，对主播数据进行切割、聚合，实现了Hadoop平台上的数据统计和清洗，展示了从数据读取到结果输出的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

</build>

项目创建完毕

三、编写MapReduce程序

===============

如果对Map和Reduce对应阶段的任务和处理结果不熟悉的可以看我之前那一篇单词统计排序教程，有详细介绍

（1）自定义数据类

该类的作用：方便统计主播的指标数据，需要把这些字段整合到一个对象中，以便日后维护

新建一个VideoInfoWritable类继承Writable类，设置四个属性，自己补上get()和set()方法

public class VideoInfoWritable extends Writable {

private long gold; //金币

private long watchnumpv; //观看时长

private long follower; //粉丝数量

private long length; //总播放时长

}

复写Writable类的两个方法，一个readFileds输入数据，一个write输出数据

@Override

public void readFields(DataInput dataInput) throws IOException {

this.gold = dataInput.readLong();

this.watchnumpv = dataInput.readLong();

this.follower = dataInput.readLong();

this.length = dataInput.readLong();

}

@Override

public void write(DataOutput dataOutput) throws IOException {

dataOutput.writeLong(gold);

dataOutput.writeLong(watchnumpv);

dataOutput.writeLong(follower);

dataOutput.writeLong(length);

}

（2）Mapper类

该类的作用：对数据进行按行读取，切割获取对应字段数据，封装字段数据到（1）自定义的类对象中

新建一个videoInfoMap类继承Mapper类，复写mapper方法

public class VideoInfoMap extends Mapper<LongWritable, Text, Text, VideoInfoWritable> {

@Override

public void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {

    String line = v1.toString(); //读取清先之后的每一行数据

    String[] fields = line.split("\t"); //通过"\t"对数据进行切割

    String id = fields[0]; //获取主播的id

/**

     * 获取主播的其他数据

     * gold-------->>金币

     * watchnumpv-->>播放量

     * follower---->>粉丝

     * length------>>开播时长

*/

    long gold = Long.parseLong(fields[1]);

    long watchnumpv = Long.parseLong(fields[2]);

    long follower = Long.parseLong(fields[3]);

    long length = Long.parseLong(fields[4]);

    Text k2 = new Text();

    k2.set(id);

    // 封装到自定义的VideoInfoWritable类对象中

    VideoInfoWritable v2 = new VideoInfoWritable();

    v2.set(gold, watchnumpv, follower, length);

    context.write(k2, v2);

}

（3）Reduce类

该类的作用：遍历具有相同主播id的VideoInfoWritable类对象，获取对应的四个字段值，进行求和

新建一个videoInfoReduce类，继承Reduce类，复写reduce方法

public class VideoInfoReduce extends Reducer<Text,VideoInfoWritable, Text,VideoInfoWritable> {

@Override

protected void reduce(Text k2,Iterable<VideoInfoWritable> v2s,Context context) throws IOException,InterruptedException{

    // 从v2s中把相同的k2的value取出来，进行遍历，进行累加求和。

    long goldsum=0;

    long watchnumpvsum=0;

    long followersum=0;

    long lengthsum=0;

/**

     * v2s：相同主播id的对应对象集合（VideoInfoWritable类对象，有四个属性）

     * 遍历具有相同id的对象，获取对应四个字段值，进行求和

*/

    for(VideoInfoWritable v2:v2s){

        goldsum+=v2.getGold();

        watchnumpvsum+=v2.getWatchnumpv();

        followersum+=v2.getFollower();

        lengthsum+=v2.getLength();

    // 将求和统计好的封装进来，写入context中，交由Job主类打印输出

    Text k3=k2;

    VideoInfoWritable v3=new VideoInfoWritable();

    v3.set(goldsum,watchnumpvsum,followersum,lengthsum);

    context.write(k3,v3);

}

（4）主类（入口类）

这个没什么好说的了，运行jar包程序的入口类，对应代码注释我也标上了

public class VideoInfoJob {

public static void main(String[] args) {

    try {

        // 运行jar包程序指令输入错误，直接退出程序

        if (args.length != 2) {

            System.exit(100);

        Configuration conf = new Configuration();//job需要的配置参数

        Job job = Job.getInstance(conf);//创建一个job作业

        job.setJarByClass(VideoInfoJob.class);//设置入口类

        FileInputFormat.setInputPaths(job, new Path(args[0]));//指定输入路径（可以是文件，也可以是目录）

        FileOutputFormat.setOutputPath(job, new Path(args[1]));//指定输出路径（只能是指定一个不存在的目录）

        // 指定Mapper阶段的相关类

        job.setMapperClass(VideoInfoMap.class);

        // 指定K2的输出数据类型

        job.setMapOutputKeyClass(Text.class);

        // 指定v2的输出数据类型

        job.setMapOutputValueClass(VideoInfoWritable.class);

        // 指定Reduce阶段的相关类

        job.setReducerClass(VideoInfoReduce.class);

        // 指定K3的输出数据类型

        job.setOutputKeyClass(Text.class);

        // 指定V3的输出数据类型

        job.setOutputValueClass(VideoInfoWritable.class);

        //提交作业job

        job.waitForCompletion(true);

    } catch (Exception e) {

        e.printStackTrace();

}

四、编译打包jar上传

===========

点击右侧的maven，展开Lifecycle，双击clean清理一下，再双击package生成jar包

运行结束，在项目目录会生成一个target文件夹，展开可以看到有一个jar包，右键复制jar包并且通过winscp连接虚拟机拷贝到虚拟机里（不会的看第一篇）

我已经成功拷贝到虚拟机了

五、拷贝数据集

=======

在第一篇文章里，我们已经初步处理好了数据，并且把结果数据集输出到了HDFS文件系统，现在我们将这个结果集拷贝到data目录，并且重新命名

输入指令，将part-m-00000文件拷贝到/zhubo/data/文件夹下，并命名为zhuboClean.log

hadoop fs -cp /zhubo/resultClean/part-m-00000 /zhubo/data/zhuboClean.log

六、执行Jar包程序

===========

最后我们执行jar包运行一下

zhuboCensus-1.0.jar 要执行的jar包名称
VideoInfoJob 主类（入口类）类名
/zhubo/data/zhuboClean.log 输入路径（数据所在位置）
/zhubo/resultCensus/ 输出路径（结果输出路径，要为不存在的文件夹）

hadoop jar zhuboCensus-1.0.jar VideoInfoJob /zhubo/data/zhuboClean.log /zhubo/resultCensus/

刷新浏览器，将输出的结果数据集下载下来

以记事本方式打开，可以看到已经统计完毕了，并且自动按照id依次显示

Gitee仓库Hadoop项目下载地址

====================

Gitee仓库地址（Hadoop实战项目源码集合）

Hadoop实战项目源码集合: https://blog.csdn.net/weixin_47971206CSDN文章教学中的源码汇总集合
其他系列技术教学、实战开发

各大技术基础教学、实战开发教学（最新更新时间2021-11-28）_Bald programmer的博客-CSDN博客

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数初中级Android工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则近万的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Android移动开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Android开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且会持续更新！

如果你觉得这些内容对你有帮助，可以扫码获取！！（备注：Android）

最后

**一个零基础的新人，我认为坚持是最最重要的。**我的很多朋友都找我来学习过，我也很用心的教他们，可是不到一个月就坚持不下来了。我认为他们坚持不下来有两点主要原因：

他们打算入行不是因为兴趣，而是因为所谓的IT行业工资高，或者说完全对未来没有任何规划。

刚开始学的时候确实很枯燥，这确实对你是个考验，所以说坚持下来也很不容易，但是如果你有兴趣就不会认为这是累，不会认为这很枯燥，总之还是贵在坚持。

技术提升遇到瓶颈了？缺高级Android进阶视频学习提升自己吗？还有大量大厂面试题为你面试做准备！

提升自己去挑战一下BAT面试难关吧

对于很多Android工程师而言，想要提升技能，往往是自己摸索成长，不成体系的学习效果低效漫长且无助。整理的这些知识图谱希望对Android开发的朋友们有所参考以及少走弯路，本文的重点是你有没有收获与成长，其余的都不重要，希望读者们能谨记这一点。

不论遇到什么困难，都不应该成为我们放弃的理由！

如果有什么疑问的可以直接私我，我尽自己最大力量帮助你！

最后祝各位新人都能坚持下来，学有所成。

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

这是累，不会认为这很枯燥，总之还是贵在坚持。

技术提升遇到瓶颈了？缺高级Android进阶视频学习提升自己吗？还有大量大厂面试题为你面试做准备！

提升自己去挑战一下BAT面试难关吧

[外链图片转存中…(img-sfwXTrYc-1712540693104)]

不论遇到什么困难，都不应该成为我们放弃的理由！

如果有什么疑问的可以直接私我，我尽自己最大力量帮助你！

最后祝各位新人都能坚持下来，学有所成。

《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取！

zhuboCensus-1.0.jar	要执行的jar包名称
VideoInfoJob	主类（入口类）类名
/zhubo/data/zhuboClean.log	输入路径（数据所在位置）
/zhubo/resultCensus/	输出路径（结果输出路径，要为不存在的文件夹）

Hadoop实战——MapReduce实现主播的播放量等数据的统计及TopN排序（第二篇）(3)，android开发基础课程

Hadoop实战项目源码集合: https://blog.csdn.net/weixin_47971206CSDN文章教学中的源码汇总集合 其他系列技术教学、实战开发

最后

Hadoop实战项目源码集合: https://blog.csdn.net/weixin_47971206CSDN文章教学中的源码汇总集合
其他系列技术教学、实战开发