Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件

最新推荐文章于 2024-05-18 09:47:06 发布

2401_84181481

最新推荐文章于 2024-05-18 09:47:06 发布

阅读量769

点赞数 19

分类专栏：程序员文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/2401_84181481/article/details/138488161

版权

程序员专栏收录该内容

166 篇文章 2 订阅

订阅专栏

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

Hadoop实战系列之MapReduce 分析 Youtube视频数据

一、实战介绍
MapReduce 是 Hadoop 的计算框架。
在运行一个 MR 程序时，任务过程被分为两个阶段：Map 阶段和 Reduce 阶段，每个阶段都是用键值对作为输入和输出。

本文知识点：
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行（远程运行）

本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7

二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集，相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下：

字段名	解释及数据类型
video ID	视频ID：每个视频均有唯一的11位字符串
uploader	上传者用户名：字符串类型
age	视频年龄：整数值，代表视频上传时间与2007年2月15日（Youtube创立日）的时间间隔
category	分类：由上传者选择的视频分类，字符串类型
length	视频长度：整数值
views	浏览量：整数值
rate	视频评分：浮点值
ratings	评分次数：整数值
comments	评论数：整数值
related IDs	相关视频ID：数量不超过20个，每一个相关视频的ID均为单独的一列

数据内容如图：
这里写图片描述

每一行为一条数据，本次实战共1000w条数据。（由于任务量有要求，但是下载的数据只有50w条，因此复制了20份合并成一个数据文件。共1000w条数据。）

每条记录的相关视频数量不尽相同，因此数据不是很整齐。我们需要过滤掉无效字段，稍后会给出项目详细代码注释。

终端下使用 wc -l 命令查看数据文件的行数。

使用 head -n 1 命令查看数据文件的第一条记录。

2.2 环境准备
由于要写 MapReduce 程序，必然要有 eclispe 下的 Hadoop 开发环境。我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中，所以必须安装 Hadoop 。

使用 start-all.sh 命令启动所有服务。

使用 jps 命令可以查看到 NameNode、SecondaryNameNode、NodeManager、ResourceManager 和 DataNode 已启动。

三、项目需求描述
根据已有数据集，编写 MapReduce 程序，实现以下功能：

从视频数据中，分别统计每一个视频类型下的视频数量，数据之间采用”\t”分隔符隔开。

四、项目实现过程
4.1 创建Map/Reducer项目：
双击桌面上的eclipse图标，创建项目：file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名，然后创建名为com.zout的包，接着在包里面创建一个java类，类名为VideoCount，
图示：
这里写图片描述

这里写图片描述

4.2 编写代码
VideoCount.java 代码如下：

package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

 /\*\*
 \* 
 \* @author zoutao
 \* @time 2018/7/3
 \* @see 分析Youtube视频数据
 \*
 \*/
public class VideoCount {
    //主函数
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "categories");
       //指定导出的jar包路径 
      job.setJar("/home/gznc/myjar/VideoCount.jar");
        //设置生产 jar 包所使用的类
        job.setJarByClass(VideoCount.class);
        //设置 Map 类的输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置 Reduce 类的输入输出类型 
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置 Map, Reduce 类的 class 参数
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //指定格式化用的类型
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定要分析的数据文件路径--0.txt
        FileInputFormat.addInputPath(job,
            new Path("hdfs://master:9000/inputVideo/0.txt"));
        //指定输出的文件路径--out2文件夹下
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
        //完成任务以后的提示信息
        boolean flag = job.waitForCompletion(true);
        System.out.println("任务完成"+flag);
        System.exit(flag?0:1);
        System.out.println();
    }

  //Map类，封装KV键值对 <k1,v1,k2,v2> ， k1 是偏移量，v1 是这行数据
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);

        //构造文本类Text对象、IntWritable 对象，也可以直接以匿名函数的方式创建
        private Text tx = new Text();

        //map 的逻辑，使用tab“\ t”分隔符来分割行，并将值存储在String Array中，以使一行中的所有列都存储在字符串数组中
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            //拿到每一行数据
            String line = value.toString();
            String[] str = line.split("\t");

            //过滤掉多余的字段
            if (str.length > 5) {
                tx.set(str[3]);
            }

            //输出key,value
            context.write(tx, one);
        }
    }

    //编写 reduce，接收 map 阶段传来的 kv 键值对，输出的类型和传进来的类型一致
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //reduce????
        public void reduce(Text key, Iterable<IntWritable> values,
            Context context) throws IOException, InterruptedException {
            int sum = 0;

            //累加求类别的视频数量
            for (IntWritable v : values) {
                sum += v.get();
            }


![img](https://img-blog.csdnimg.cn/img_convert/8be7aa7710ce1a77dd412102aca099c6.png)
![img](https://img-blog.csdnimg.cn/img_convert/72dc03fce8d08ba26a37fc6075fb1a4b.png)

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84181481

关注

19
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件

双击桌面上的eclipse图标，创建项目：file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名，然后创建名为com.zout的包，接着在包里面创建一个java类，类名为VideoCount，我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中，所以必须安装 Hadoop。在运行一个 MR 程序时，任务过程被分为两个阶段：Map 阶段和 Reduce 阶段，每个阶段都是用键值对作为输入和输出。
复制链接

扫一扫