既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
Hadoop实战系列之MapReduce 分析 Youtube视频数据
一、实战介绍
MapReduce 是 Hadoop 的计算框架。
在运行一个 MR 程序时,任务过程被分为两个阶段:Map 阶段和 Reduce 阶段,每个阶段都是用键值对作为输入和输出。
本文知识点:
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行(远程运行)
本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7
二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集,相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下:
字段名 | 解释及数据类型 |
---|---|
video ID | 视频ID:每个视频均有唯一的11位字符串 |
uploader | 上传者用户名:字符串类型 |
age | 视频年龄:整数值,代表视频上传时间与2007年2月15日(Youtube创立日)的时间间隔 |
category | 分类:由上传者选择的视频分类,字符串类型 |
length | 视频长度:整数值 |
views | 浏览量:整数值 |
rate | 视频评分:浮点值 |
ratings | 评分次数:整数值 |
comments | 评论数:整数值 |
related IDs | 相关视频ID:数量不超过20个,每一个相关视频的ID均为单独的一列 |
数据内容如图:
每一行为一条数据,本次实战共1000w条数据。(由于任务量有要求,但是下载的数据只有50w条,因此复制了20份合并成一个数据文件。共1000w条数据。)
每条记录的相关视频数量不尽相同,因此数据不是很整齐。我们需要过滤掉无效字段,稍后会给出项目详细代码注释。
终端下使用 wc -l 命令查看数据文件的行数。
使用 head -n 1 命令查看数据文件的第一条记录。
2.2 环境准备
由于要写 MapReduce 程序,必然要有 eclispe 下的 Hadoop 开发环境。我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中,所以必须安装 Hadoop 。
使用 start-all.sh 命令启动所有服务。
使用 jps 命令可以查看到 NameNode、SecondaryNameNode、NodeManager、ResourceManager 和 DataNode 已启动。
三、项目需求描述
根据已有数据集,编写 MapReduce 程序,实现以下功能:
从视频数据中,分别统计每一个视频类型下的视频数量,数据之间采用”\t”分隔符隔开。
四、项目实现过程
4.1 创建Map/Reducer项目:
双击桌面上的eclipse图标,创建项目:file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名,然后创建名为com.zout的包,接着在包里面创建一个java类,类名为VideoCount,
图示:
4.2 编写代码
VideoCount.java 代码如下:
package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;
/\*\*
\*
\* @author zoutao
\* @time 2018/7/3
\* @see 分析Youtube视频数据
\*
\*/
public class VideoCount {
//主函数
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
@SuppressWarnings("deprecation")
Job job = new Job(conf, "categories");
//指定导出的jar包路径
job.setJar("/home/gznc/myjar/VideoCount.jar");
//设置生产 jar 包所使用的类
job.setJarByClass(VideoCount.class);
//设置 Map 类的输入输出类型
job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(IntWritable.class);
//设置 Reduce 类的输入输出类型
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
//设置 Map, Reduce 类的 class 参数
job.setMapperClass(Map.class);
job.setReducerClass(Reduce.class);
//指定格式化用的类型
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
//指定要分析的数据文件路径--0.txt
FileInputFormat.addInputPath(job,
new Path("hdfs://master:9000/inputVideo/0.txt"));
//指定输出的文件路径--out2文件夹下
FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
//完成任务以后的提示信息
boolean flag = job.waitForCompletion(true);
System.out.println("任务完成"+flag);
System.exit(flag?0:1);
System.out.println();
}
//Map类,封装KV键值对 <k1,v1,k2,v2> , k1 是偏移量,v1 是这行数据
public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
private final static IntWritable one = new IntWritable(1);
//构造文本类Text对象、IntWritable 对象,也可以直接以匿名函数的方式创建
private Text tx = new Text();
//map 的逻辑,使用tab“\ t”分隔符来分割行,并将值存储在String Array中,以使一行中的所有列都存储在字符串数组中
public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException {
//拿到每一行数据
String line = value.toString();
String[] str = line.split("\t");
//过滤掉多余的字段
if (str.length > 5) {
tx.set(str[3]);
}
//输出key,value
context.write(tx, one);
}
}
//编写 reduce,接收 map 阶段传来的 kv 键值对,输出的类型和传进来的类型一致
public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
//reduce????
public void reduce(Text key, Iterable<IntWritable> values,
Context context) throws IOException, InterruptedException {
int sum = 0;
//累加求类别的视频数量
for (IntWritable v : values) {
sum += v.get();
}
//写入文本文件中输出
context.write(key, new IntWritable(sum));
}
}
}
![img](https://img-blog.csdnimg.cn/img_convert/2ba32ec339b00706eb5377a0be12433c.png)
![img](https://img-blog.csdnimg.cn/img_convert/9325911c77279ca18b8c5a9e0a23b6a3.png)
![img](https://i-blog.csdnimg.cn/blog_migrate/b2b7621fee0a403224bf49bc21a3b1e8.png)
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**
**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**
**既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!**
**由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新**
**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**