Hadoop实战系列之MapReduce 分析 Youtube视频数据_hadoop 怎么解析视频文件(1)

最新推荐文章于 2024-09-04 02:56:46 发布

afagagagaa

最新推荐文章于 2024-09-04 02:56:46 发布

阅读量955

点赞数 7

分类专栏：程序员文章标签： hadoop mapreduce 大数据

本文链接：https://blog.csdn.net/afagagagaa/article/details/138488133

版权

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新

在运行一个 MR 程序时，任务过程被分为两个阶段：Map 阶段和 Reduce 阶段，每个阶段都是用键值对作为输入和输出。

本文知识点：
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行（远程运行）

本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7

二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集，相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下：

字段名	解释及数据类型
video ID	视频ID：每个视频均有唯一的11位字符串
uploader	上传者用户名：字符串类型
age	视频年龄：整数值，代表视频上传时间与2007年2月15日（Youtube创立日）的时间间隔
category	分类：由上传者选择的视频分类，字符串类型
length	视频长度：整数值
views	浏览量ÿ