网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
Hadoop实战系列之MapReduce 分析 Youtube视频数据
一、实战介绍
MapReduce 是 Hadoop 的计算框架。
在运行一个 MR 程序时,任务过程被分为两个阶段:Map 阶段和 Reduce 阶段,每个阶段都是用键值对作为输入和输出。
本文知识点:
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行(远程运行)
本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7
二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集,相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下:
字段名 | 解释及数据类型 |
---|---|
video ID | 视频ID:每个视频均有唯一的11位字符串 |
uploader | 上传者用户名:字符串类型 |
age | 视频年龄:整数值,代表视频上传时间与2007年2月15日(Youtube创立日)的时间间隔 |
category | 分类:由上传者选择的视频分类,字符串类型 |
length | 视频长度:整数值 |
views | 浏览量:整数值 |
rate | 视频评分:浮点值 |
ratings | 评分次数:整数值 |
comments | 评论数:整数值 |
related IDs | 相关视频ID:数量不超过20个,每一个相关视频的ID均为单独的一列 |
数据内容如图:
每一行为一条数据,本次实战共1000w条数据。(由于任务量有要求,但是下载的数据只有50w条,因此复制了20份合并成一个数据文件。共1000w条数据。)
每条记录的相关视频数量不尽相同,因此数据不是很整齐。我们需要过滤掉无效字段,稍后会给出项目详细代码注释。
终端下使用 wc -l 命令查看数据文件的行数。
使用 head -n 1 命令查看数据文件的第一条记录。
2.2 环境准备
由于要写 MapReduce 程序,必然要有 eclispe 下的 Hadoop 开发环境。我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中,所以必须安装 Hadoop 。
使用 start-all.sh 命令启动所有服务。
使用 jps 命令可以查看到 NameNode、SecondaryNameNode、NodeManager、ResourceManager 和 DataNode 已启动。
三、项目需求描述
根据已有数据集,编写 MapReduce 程序,实现以下功能:
从视频数据中,分别统计每一个视频类型下的视频数量,数据之间采用”\t”分隔符隔开。
四、项目实现过程
4.1 创建Map/Reducer项目:
双击桌面上的eclipse图标,创建项目:file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名,然后创建名为com.zout的包,接着在包里面创建一个java类,类名为VideoCount,
图示:
4.2 编写代码
VideoCount.java 代码如下:
package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;
/\*\*
\*
\* @author zoutao
\* @time 2018/7/3
\* @see 分析Youtube视频数据
\*
\*/
public class VideoCount {
//主函数
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
@SuppressWarnings("deprecation")
Job job = new Job(conf, "categories");
//指定导出的jar包路径
job.setJar("/home/gznc/myjar/VideoCount.jar");
//设置生产 jar 包所使用的类
job.setJarByClass(VideoCount.class);
//设置 Map 类的输入输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//设置 Reduce 类的输入输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
//设置 Map, Reduce 类的 class 参数
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
//指定格式化用的类型
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
//指定要分析的数据文件路径--0.txt
FileInputFormat.addInputPath(job,
new Path("hdfs://master:9000/inputVideo/0.txt"));
//指定输出的文件路径--out2文件夹下
FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
//完成任务以后的提示信息
boolean flag = job.waitForCompletion(true);
System.out.println("任务完成"+flag);
System.exit(flag?0:1);
System.out.println();
}
//Map类,封装KV键值对 <k1,v1,k2,v2> , k1 是偏移量,v1 是这行数据
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
//构造文本类Text对象、IntWritable 对象,也可以直接以匿名函数的方式创建
private Text tx = new Text();
//map 的逻辑,使用tab“\ t”分隔符来分割行,并将值存储在String Array中,以使一行中的所有列都存储在字符串数组中
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
//拿到每一行数据
String line = value.toString();
String[] str = line.split("\t");
//过滤掉多余的字段
if (str.length > 5) {
tx.set(str[3]);
}
//输出key,value
context.write(tx, one);
}
}
//编写 reduce,接收 map 阶段传来的 kv 键值对,输出的类型和传进来的类型一致
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
//reduce????
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
//累加求类别的视频数量
for (IntWritable v : values) {
sum += v.get();
}
![img](https://img-blog.csdnimg.cn/img_convert/8be7aa7710ce1a77dd412102aca099c6.png)
![img](https://img-blog.csdnimg.cn/img_convert/72dc03fce8d08ba26a37fc6075fb1a4b.png)
**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**
,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**