Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件(1)

最新推荐文章于 2024-09-05 11:47:24 发布

2401_84185951

最新推荐文章于 2024-09-05 11:47:24 发布

阅读量710

点赞数 6

分类专栏：程序员文章标签：大数据面试学习

本文链接：https://blog.csdn.net/2401_84185951/article/details/138859226

版权

程序员专栏收录该内容

112 篇文章 0 订阅

订阅专栏

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

需要这份系统化资料的朋友，可以戳这里获取

这里写图片描述

4.2 编写代码
VideoCount.java 代码如下：

package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

 /\*\*
 \* 
 \* @author zoutao
 \* @time 2018/7/3
 \* @see 分析Youtube视频数据
 \*
 \*/
public class VideoCount {
    //主函数
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "categories");
       //指定导出的jar包路径 
      job.setJar("/home/gznc/myjar/VideoCount.jar");
        //设置生产 jar 包所使用的类
        job.setJarByClass(VideoCount.class);
        //设置 Map 类的输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置 Reduce 类的输入输出类型 
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置 Map, Reduce 类的 class 参数
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //指定格式化用的类型
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定要分析的数据文件路径--0.txt
        FileInputFormat.addInputPath(job,
            new Path("hdfs://master:9000/inputVideo/0.txt"));
        //指定输出的文件路径--out2文件夹下
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
        //完成任务以后的提示信息
        boolean flag = job.waitForCompletion(true);
        System.out.println("任务完成"+flag);
        System.exit(flag?0:1);
        System.out.println();
    }

  //Map类，封装KV键值对 <k1,v1,k2,v2> ， k1 是偏移量，v1 是这行数据
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);

        //构造文本类Text对象、IntWritable 对象，也可以直接以匿名函数的方式创建
        private Text tx = new Text();

        //map 的逻辑，使用tab“\ t”分隔符来分割行，并将值存储在String Array中，以使一行中的所有列都存储在字符串数组中
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            //拿到每一行数据
            String line = value.toString();
            String[] str = line.split("\t");

            //过滤掉多余的字段
            if (str.length > 5) {
                tx.set(str[3]);
            }

            //输出key,value
            context.write(tx, one);
        }
    }

    //编写 reduce，接收 map 阶段传来的 kv 键值对，输出的类型和传进来的类型一致
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //reduce????
        public void reduce(Text key, Iterable<IntWritable> values,
            Context context) throws IOException, InterruptedException {
            int sum = 0;

            //累加求类别的视频数量
            for (IntWritable v : values) {
                sum += v.get();
            }

            //写入文本文件中输出
            context.write(key, new IntWritable(sum));
        }
    }
}

4.3 导出jar包
编码完成以后，我们可以需要导出jar包。

注意：

在eclipse里面就可以运行MR代码，可以不用导出jar包。
为什么要导出jar包？jar包导出以后，可以以生成 jar 包的形式提交 hadoop yarn 上来运行MR程序，得到数据分析的结果。这样跟在eclipse中运行是一样的。只不过是方式不同。方便一些专门搞linux系统的朋友使用。
如果你是在 Windows 平台写的MR代码，则可以用通过生成 jar 包的方式提交到其他系统的hadoop环境下去运行。

导出jar操作如下：
eclipse中选中项目右键，在弹出的菜单中选择 Export

这里写图片描述

上面的路径需要自己定义成自己的，而且需要跟MR代码里面保持一致。

4.4 开启hadoop集群，上传数据文件

a. 终端下输入start-all.sh，开启hadoop集群环境，输入jps查看进程如下：
这里写图片描述

b. 数据上传到HDFS文件系统下：
在终端中输入以下命令，将 0.txt 上传到 HDFS 文件系统。

方式一：采用hadoop命令完成上传：
终端下输入：

hadoop fs -mkdir /inputVideo  //创建一个文件夹
hadoop fs -put /home/gznc/0.txt /inputVideo //0.txt上传到文件夹下

方式二：采用eclipse插件完成上传：这个需要自己先去搭建hadoopEclipse插件，出现管理DFS的页面选项才可以。
打开eclipse里面的DFS管理，然后右键选择创建文件夹和上传文件即可，如果出现无法上传或者是删除不了文件夹的情况，请参考：eclipse可以连接显示hdfs文件，但运行程序时却提示拒绝连接
完成以后的图示：
这里写图片描述

好了，现在已经完成了编写MR程序代码，导出了jar包，上传了0.txt数据。接下来就可以运行代码了。

4.5 运行hadoop数据分析程序
也是可以分为两种方式来运行。
方式一：在eclipse的本程序代码中，直接右键Run AS >> Run on Hadoop ,然后等待任务完成，完成以后打开DFS即可查看：
这里写图片描述
结果：

方式二：
终端下提交jar包来运行程序：
按照如下方式来写对应代码，回车即可。

hadoop jar 生成的jar包路径 全类名 输入路径input 输出路径output

如下：



![img](https://img-blog.csdnimg.cn/img_convert/d95f4236a35910b4ba711e63ba2971ef.png)
![img](https://img-blog.csdnimg.cn/img_convert/2b34d95836baa2d337ed16e9f07ea16a.png)

**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**

2401_84185951

关注

6
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件(1)

方式二：采用eclipse插件完成上传：这个需要自己先去搭建hadoopEclipse插件，出现管理DFS的页面选项才可以。好了，现在已经完成了编写MR程序代码，导出了jar包，上传了0.txt数据。接下来就可以运行代码了。在终端中输入以下命令，将 0.txt 上传到 HDFS 文件系统。eclipse中选中项目右键，在弹出的菜单中选择 Export。上面的路径需要自己定义成自己的，而且需要跟MR代码里面保持一致。编码完成以后，我们可以需要导出jar包。按照如下方式来写对应代码，回车即可。
复制链接

扫一扫