既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
在运行一个 MR 程序时,任务过程被分为两个阶段:Map 阶段和 Reduce 阶段,每个阶段都是用键值对作为输入和输出。
本文知识点:
eclipse 的 Hadoop 开发环境搭建
编写 MR 程序
本地运行
生成 Jar 包提交 yarn 运行(远程运行)
本机环境
Hadoop 2.5.1
eclipse indigo
Centos6.9
Jdk1.7
二、准备工作
2.1 数据集介绍及准备
博主使用 Youtube 视频数据集,相关的介绍可以访问 Youtube Dataset 网站查看。
该数据集各个字段的具体含义如下:
字段名 | 解释及数据类型 |
---|---|
video ID | 视频ID:每个视频均有唯一的11位字符串 |
uploader | 上传者用户名:字符串类型 |
age | 视频年龄:整数值,代表视频上传时间与2007年2月15日(Youtube创立日)的时间间隔 |
category | 分类:由上传者选择的视频分类,字符串类型 |
length | 视频长度:整数值 |
views | 浏览量ÿ |