Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件(1)

img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!

由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新

需要这份系统化资料的朋友,可以戳这里获取

这里写图片描述

这里写图片描述

4.2 编写代码
VideoCount.java 代码如下:

package com.zout;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import java.io.IOException;

 /\*\*
 \* 
 \* @author zoutao
 \* @time 2018/7/3
 \* @see 分析Youtube视频数据
 \*
 \*/
public class VideoCount {
    //主函数
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        @SuppressWarnings("deprecation")
        Job job = new Job(conf, "categories");
       //指定导出的jar包路径 
      job.setJar("/home/gznc/myjar/VideoCount.jar");
        //设置生产 jar 包所使用的类
        job.setJarByClass(VideoCount.class);
        //设置 Map 类的输入输出类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //设置 Reduce 类的输入输出类型 
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //设置 Map, Reduce 类的 class 参数
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        //指定格式化用的类型
        job.setInputFormatClass(TextInputFormat.class);
        job.setOutputFormatClass(TextOutputFormat.class);
        //指定要分析的数据文件路径--0.txt
        FileInputFormat.addInputPath(job,
            new Path("hdfs://master:9000/inputVideo/0.txt"));
        //指定输出的文件路径--out2文件夹下
        FileOutputFormat.setOutputPath(job, new Path("hdfs://master:9000/out2/"));
        //完成任务以后的提示信息
        boolean flag = job.waitForCompletion(true);
        System.out.println("任务完成"+flag);
        System.exit(flag?0:1);
        System.out.println();
    }

  //Map类,封装KV键值对 <k1,v1,k2,v2> , k1 是偏移量,v1 是这行数据
    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        private final static IntWritable one = new IntWritable(1);

        //构造文本类Text对象、IntWritable 对象,也可以直接以匿名函数的方式创建
        private Text tx = new Text();

        //map 的逻辑,使用tab“\ t”分隔符来分割行,并将值存储在String Array中,以使一行中的所有列都存储在字符串数组中
        public void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
            //拿到每一行数据
            String line = value.toString();
            String[] str = line.split("\t");

            //过滤掉多余的字段
            if (str.length > 5) {
                tx.set(str[3]);
            }

            //输出key,value
            context.write(tx, one);
        }
    }

    //编写 reduce,接收 map 阶段传来的 kv 键值对,输出的类型和传进来的类型一致
    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        //reduce????
        public void reduce(Text key, Iterable<IntWritable> values,
            Context context) throws IOException, InterruptedException {
            int sum = 0;

            //累加求类别的视频数量
            for (IntWritable v : values) {
                sum += v.get();
            }

            //写入文本文件中输出
            context.write(key, new IntWritable(sum));
        }
    }
}

4.3 导出jar包
编码完成以后,我们可以需要导出jar包。


注意:

  1. 在eclipse里面就可以运行MR代码,可以不用导出jar包。
  2. 为什么要导出jar包?jar包导出以后,可以以生成 jar 包的形式提交 hadoop yarn 上来运行MR程序,得到数据分析的结果。这样跟在eclipse中运行是一样的。只不过是方式不同。方便一些专门搞linux系统的朋友使用。
  3. 如果你是在 Windows 平台写的MR代码,则可以用通过生成 jar 包的方式提交到其他系统的hadoop环境下去运行。

导出jar操作如下:
eclipse中选中项目右键 ,在弹出的菜单中选择 Export

这里写图片描述
这里写图片描述
这里写图片描述
上面的路径需要自己定义成自己的,而且需要跟MR代码里面保持一致。

4.4 开启hadoop集群,上传数据文件

a. 终端下输入start-all.sh,开启hadoop集群环境,输入jps查看进程如下:
这里写图片描述

b. 数据上传到HDFS文件系统下:
在终端中输入以下命令,将 0.txt 上传到 HDFS 文件系统。

方式一:采用hadoop命令完成上传:
终端下输入:

hadoop fs -mkdir /inputVideo  //创建一个文件夹
hadoop fs -put /home/gznc/0.txt /inputVideo //0.txt上传到文件夹下

方式二:采用eclipse插件完成上传:这个需要自己先去搭建hadoopEclipse插件,出现管理DFS的页面选项才可以。
打开eclipse里面的DFS管理,然后右键选择创建文件夹和上传文件即可,如果出现无法上传或者是删除不了文件夹的情况,请参考:eclipse可以连接显示hdfs文件,但运行程序时却提示拒绝连接
完成以后的图示:
这里写图片描述

好了,现在已经完成了编写MR程序代码,导出了jar包,上传了0.txt数据。接下来就可以运行代码了。

4.5 运行hadoop数据分析程序
也是可以分为两种方式来运行。
方式一:在eclipse的本程序代码中,直接右键Run AS >> Run on Hadoop ,然后等待任务完成,完成以后打开DFS即可查看:
这里写图片描述
结果:
这里写图片描述

方式二:
终端下提交jar包来运行程序:
按照如下方式来写对应代码,回车即可。

hadoop jar 生成的jar包路径 全类名 输入路径input 输出路径output

如下:



![img](https://img-blog.csdnimg.cn/img_convert/d95f4236a35910b4ba711e63ba2971ef.png)
![img](https://img-blog.csdnimg.cn/img_convert/2b34d95836baa2d337ed16e9f07ea16a.png)

**网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。**

**[需要这份系统化资料的朋友,可以戳这里获取](https://bbs.csdn.net/topics/618545628)**


**一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!**

  • 6
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值