</build>
项目创建完毕
三、编写MapReduce程序
===============
如果对Map和Reduce对应阶段的任务和处理结果不熟悉的可以看我之前那一篇 单词统计排序教程,有详细介绍
(1)自定义数据类
该类的作用:方便统计主播的指标数据,需要把这些字段整合到一个对象中,以便日后维护
新建一个VideoInfoWritable类继承Writable类,设置四个属性,自己补上get()和set()方法
public class VideoInfoWritable extends Writable {
private long gold; //金币
private long watchnumpv; //观看时长
private long follower; //粉丝数量
private long length; //总播放时长
}
复写Writable类的两个方法,一个readFileds输入数据,一个write输出数据
@Override
public void readFields(DataInput dataInput) throws IOException {
this.gold = dataInput.readLong();
this.watchnumpv = dataInput.readLong();
this.follower = dataInput.readLong();
this.length = dataInput.readLong();
}
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.writeLong(gold);
dataOutput.writeLong(watchnumpv);
dataOutput.writeLong(follower);
dataOutput.writeLong(length);
}
(2)Mapper类
该类的作用:对数据进行按行读取,切割获取对应字段数据,封装字段数据到(1)自定义的类对象中
新建一个videoInfoMap类继承Mapper类,复写mapper方法
public class VideoInfoMap extends Mapper<LongWritable, Text, Text, VideoInfoWritable> {
@Override
public void map(LongWritable k1, Text v1, Context context) throws IOException, InterruptedException {
String line = v1.toString(); //读取清先之后的每一行数据
String[] fields = line.split("\t"); //通过"\t"对数据进行切割
String id = fields[0]; //获取主播的id
/**
* 获取主播的其他数据
* gold-------->>金币
* watchnumpv-->>播放量
* follower---->>粉丝
* length------>>开播时长
*/
long gold = Long.parseLong(fields[1]);
long watchnumpv = Long.parseLong(fields[2]);
long follower = Long.parseLong(fields[3]);
long length = Long.parseLong(fields[4]);
Text k2 = new Text();
k2.set(id);
// 封装到自定义的VideoInfoWritable类对象中
VideoInfoWritable v2 = new VideoInfoWritable();
v2.set(gold, watchnumpv, follower, length);
context.write(k2, v2);
}
}
(3)Reduce类
该类的作用:遍历具有相同主播id的VideoInfoWritable类对象,获取对应的四个字段值,进行求和
新建一个videoInfoReduce类,继承Reduce类,复写reduce方法
public class VideoInfoReduce extends Reducer<Text,VideoInfoWritable, Text,VideoInfoWritable> {
@Override
protected void reduce(Text k2,Iterable<VideoInfoWritable> v2s,Context context) throws IOException,InterruptedException{
// 从v2s中把相同的k2的value取出来,进行遍历,进行累加求和。
long goldsum=0;
long watchnumpvsum=0;
long followersum=0;
long lengthsum=0;
/**
* v2s:相同主播id的对应对象集合(VideoInfoWritable类对象,有四个属性)
* 遍历具有相同id的对象,获取对应四个字段值,进行求和
*/
for(VideoInfoWritable v2:v2s){
goldsum+=v2.getGold();
watchnumpvsum+=v2.getWatchnumpv();
followersum+=v2.getFollower();
lengthsum+=v2.getLength();
}
// 将求和统计好的封装进来,写入context中,交由Job主类打印输出
Text k3=k2;
VideoInfoWritable v3=new VideoInfoWritable();
v3.set(goldsum,watchnumpvsum,followersum,lengthsum);
context.write(k3,v3);
}
}
(4)主类(入口类)
这个没什么好说的了,运行jar包程序的入口类,对应代码注释我也标上了
public class VideoInfoJob {
public static void main(String[] args) {
try {
// 运行jar包程序指令输入错误,直接退出程序
if (args.length != 2) {
System.exit(100);
}
Configuration conf = new Configuration();//job需要的配置参数
Job job = Job.getInstance(conf);//创建一个job作业
job.setJarByClass(VideoInfoJob.class);//设置入口类
FileInputFormat.setInputPaths(job, new Path(args[0]));//指定输入路径(可以是文件,也可以是目录)
FileOutputFormat.setOutputPath(job, new Path(args[1]));//指定输出路径(只能是指定一个不存在的目录)
// 指定Mapper阶段的相关类
job.setMapperClass(VideoInfoMap.class);
// 指定K2的输出数据类型
job.setMapOutputKeyClass(Text.class);
// 指定v2的输出数据类型
job.setMapOutputValueClass(VideoInfoWritable.class);
// 指定Reduce阶段的相关类
job.setReducerClass(VideoInfoReduce.class);
// 指定K3的输出数据类型
job.setOutputKeyClass(Text.class);
// 指定V3的输出数据类型
job.setOutputValueClass(VideoInfoWritable.class);
//提交作业job
job.waitForCompletion(true);
} catch (Exception e) {
e.printStackTrace();
}
}
}
四、编译打包jar上传
===========
点击右侧的maven,展开Lifecycle,双击clean清理一下,再双击package生成jar包
运行结束,在项目目录会生成一个target文件夹,展开可以看到有一个jar包,右键复制jar包并且通过winscp连接虚拟机拷贝到虚拟机里 (不会的看第一篇)
我已经成功拷贝到虚拟机了
五、拷贝数据集
=======
在第一篇文章里,我们已经初步处理好了数据,并且把结果数据集输出到了HDFS文件系统,现在我们将这个结果集拷贝到data目录,并且重新命名
输入指令,将part-m-00000文件拷贝到/zhubo/data/文件夹下,并命名为zhuboClean.log
hadoop fs -cp /zhubo/resultClean/part-m-00000 /zhubo/data/zhuboClean.log
六、执行Jar包程序
===========
最后我们执行jar包运行一下
zhuboCensus-1.0.jar 要执行的jar包名称 VideoInfoJob 主类(入口类)类名 /zhubo/data/zhuboClean.log 输入路径(数据所在位置) /zhubo/resultCensus/ 输出路径(结果输出路径,要为不存在的文件夹)
hadoop jar zhuboCensus-1.0.jar VideoInfoJob /zhubo/data/zhuboClean.log /zhubo/resultCensus/
刷新浏览器,将输出的结果数据集下载下来
以记事本方式打开,可以看到已经统计完毕了,并且自动按照id依次显示
Gitee仓库Hadoop项目下载地址
====================
Gitee仓库地址(Hadoop实战项目源码集合)
Hadoop实战项目源码集合: https://blog.csdn.net/weixin_47971206CSDN文章教学中的源码汇总集合
其他系列技术教学、实战开发
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数初中级Android工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则近万的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年Android移动开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Android开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!
如果你觉得这些内容对你有帮助,可以扫码获取!!(备注:Android)

最后
**一个零基础的新人,我认为坚持是最最重要的。**我的很多朋友都找我来学习过,我也很用心的教他们,可是不到一个月就坚持不下来了。我认为他们坚持不下来有两点主要原因:
他们打算入行不是因为兴趣,而是因为所谓的IT行业工资高,或者说完全对未来没有任何规划。
刚开始学的时候确实很枯燥,这确实对你是个考验,所以说坚持下来也很不容易,但是如果你有兴趣就不会认为这是累,不会认为这很枯燥,总之还是贵在坚持。
技术提升遇到瓶颈了?缺高级Android进阶视频学习提升自己吗?还有大量大厂面试题为你面试做准备!
提升自己去挑战一下BAT面试难关吧
对于很多Android工程师而言,想要提升技能,往往是自己摸索成长,不成体系的学习效果低效漫长且无助。整理的这些知识图谱希望对Android开发的朋友们有所参考以及少走弯路,本文的重点是你有没有收获与成长,其余的都不重要,希望读者们能谨记这一点。
不论遇到什么困难,都不应该成为我们放弃的理由!
如果有什么疑问的可以直接私我,我尽自己最大力量帮助你!
最后祝各位新人都能坚持下来,学有所成。
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!
这是累,不会认为这很枯燥,总之还是贵在坚持。
技术提升遇到瓶颈了?缺高级Android进阶视频学习提升自己吗?还有大量大厂面试题为你面试做准备!
提升自己去挑战一下BAT面试难关吧
[外链图片转存中…(img-sfwXTrYc-1712540693104)]
对于很多Android工程师而言,想要提升技能,往往是自己摸索成长,不成体系的学习效果低效漫长且无助。整理的这些知识图谱希望对Android开发的朋友们有所参考以及少走弯路,本文的重点是你有没有收获与成长,其余的都不重要,希望读者们能谨记这一点。
不论遇到什么困难,都不应该成为我们放弃的理由!
如果有什么疑问的可以直接私我,我尽自己最大力量帮助你!
最后祝各位新人都能坚持下来,学有所成。
《互联网大厂面试真题解析、进阶开发核心学习笔记、全套讲解视频、实战项目源码讲义》点击传送门即可获取!