Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件(2)

最新推荐文章于 2024-07-17 15:26:04 发布

kenzsoft

最新推荐文章于 2024-07-17 15:26:04 发布

阅读量1k

点赞数 20

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/kenzsoft/article/details/138859267

版权

程序员专栏收录该内容

112 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

Hadoop实战系列之MapReduce 分析 Youtube视频数据

一、实战介绍
MapReduce 是 Hadoop 的计算框架。
在运行一个 MR 程序时，任务过程被分为两个阶段：Map 阶段和 Reduce 阶段，每个阶段都是用键值对作为输入和输出。

本文知识点：
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行（远程运行）

本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7

二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集，相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下：

字段名	解释及数据类型
video ID	视频ID：每个视频均有唯一的11位字符串
uploader	上传者用户名：字符串类型
age	视频年龄：整数值，代表视频上传时间与2007年2月15日（Youtube创立日）的时间间隔
category	分类：由上传者选择的视频分类，字符串类型
length	视频长度：整数值
views	浏览量：整数值
rate	视频评分：浮点值
ratings	评分次数：整数值
comments	评论数：整数值
related IDs	相关视频ID：数量不超过20个，每一个相关视频的ID均为单独的一列

数据内容如图：
这里写图片描述

每一行为一条数据，本次实战共1000w条数据。（由于任务量有要求，但是下载的数据只有50w条，因此复制了20份合并成一个数据文件。共1000w条数据。）

每条记录的相关视频数量不尽相同，因此数据不是很整齐。我们需要过滤掉无效字段，稍后会给出项目详细代码注释。

终端下使用 wc -l 命令查看数据文件的行数。

使用 head -n 1 命令查看数据文件的第一条记录。

2.2 环境准备
由于要写 MapReduce 程序，必然要有 eclispe 下的 Hadoop 开发环境。我们又希望以生成 jar 包的方式提交和运行在 Hadoop 环境中，所以必须安装 Hadoop 。

使用 start-all.sh 命令启动所有服务。

使用 jps 命令可以查看到 NameNode、SecondaryNameNode、NodeManager、ResourceManager 和 DataNode 已启动。

三、项目需求描述
根据已有数据集，编写 MapReduce 程序，实现以下功能：

从视频数据中，分别统计每一个视频类型下的视频数量，数据之间采用”\t”分隔符隔开。

四、项目实现过程
4.1 创建Map/Reducer项目：
双击桌面上的eclipse图标，创建项目：file->other->Map/Reducer Project->Next->Project name创建名为VideoCount的项目名，然后创建名为com.zout的包，接着在包里面创建一个java类，类名为VideoCount，
图示：
这里写图片描述

这里写图片描述

4.2 编写代码
VideoCount.java 代码如下：

package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

 /\*\*
 \* 
 \* @author zoutao
 \* @time 2018/7/3
 \* @see 分析Youtube视频数据
 \*
 \*/
public class VideoCount {
    //主函数
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "categories");
       //指定导出的jar包路径 
      job.setJar("/home/gznc/myjar/VideoCount.jar");
        //设置生产 jar 包所使用的类
        job.setJarByClass(VideoCount.class);
        //设置 Map 类的输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置 Reduce 类的输入输出类型 
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置 Map, Reduce 类的 class 参数
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //指定格式化用的类型
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定要分析的数据文件路径--0.txt
        FileInputFormat.addInputPath(job,
            new Path("hdfs://master:9000/inputVideo/0.txt"));
        //指定输出的文件路径--out2文件夹下
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
        //完成任务以后的提示信息
        boolean flag = job.waitForCompletion(true);
        System.out.println("任务完成"+flag);
        System.exit(flag?0:1);
        System.out.println();
    }

  //Map类，封装KV键值对 <k1,v1,k2,v2> ， k1 是偏移量，v1 是这行数据
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);

        //构造文本类Text对象、IntWritable 对象，也可以直接以匿名函数的方式创建
        private Text tx = new Text();

        //map 的逻辑，使用tab“\ t”分隔符来分割行，并将值存储在String Array中，以使一行中的所有列都存储在字符串数组中
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            //拿到每一行数据
            String line = value.toString();
            String[] str = line.split("\t");

            //过滤掉多余的字段
            if (str.length > 5) {
                tx.set(str[3]);
            }

            //输出key,value
            context.write(tx, one);
        }
    }

    //编写 reduce，接收 map 阶段传来的 kv 键值对，输出的类型和传进来的类型一致
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //reduce????
        public void reduce(Text key, Iterable<IntWritable> values,
            Context context) throws IOException, InterruptedException {
            int sum = 0;

            //累加求类别的视频数量
            for (IntWritable v : values) {
                sum += v.get();
            }

            //写入文本文件中输出
            context.write(key, new IntWritable(sum));
        }
    }
}


![img](https://img-blog.csdnimg.cn/img_convert/2ba32ec339b00706eb5377a0be12433c.png)
![img](https://img-blog.csdnimg.cn/img_convert/9325911c77279ca18b8c5a9e0a23b6a3.png)
![img](https://i-blog.csdnimg.cn/blog_migrate/b2b7621fee0a403224bf49bc21a3b1e8.png)

**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**



**既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！**

**由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**