既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
1、常用端口号
hadoop3.x
- HDFS NameNode 内部通常端口:8020/9000/9820
- HDFS NameNode 对用户的查询端口:9870
- Yarn查看任务运行情况的:8088
- 历史服务器:19888
hadoop2.x
- HDFS NameNode 内部通常端口:8020/9000
- HDFS NameNode 对用户的查询端口:50070
- Yarn查看任务运行情况的:8088
- 历史服务器:19888
2、常用的配置文件
- 3.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml workers
- 2.x core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml slaves
二、HDFS
- 1、HDFS文件块大小(面试重点)
- 硬盘读写速度
- 在企业中 一般128m(中小公司) 256m (大公司)
- 2、HDFS的Shell操作(开发重点)
- 3、HDFS的读写流程(面试重点)
三、Map Reduce
1、InputFormat
- 1)默认的是TextInputformat kv key偏移量,v :一行内容
- 2)处理小文件CombineTextInputFormat 把多个文件合并到一起统一切片
2、Mapper
- setup()初始化; map()用户的业务逻辑; clearup() 关闭资源;
3、分区
- 默认分区HashPartitioner ,默认按照key的hash值%numreducetask个数
- 自定义分区
4、排序
- 1)部分排序 每个输出的文件内部有序。
- 2)全排序: 一个reduce ,对所有数据大排序。
- 3)二次排序: 自定义排序范畴, 实现 writableCompare接口, 重写compareTo方法
5、Combiner
前提:不影响最终的业务逻辑(求和 没问题 求平均值)
提前聚合map => 解决数据倾斜的一个方法
6、Reducer
- 用户的业务逻辑;
- setup()初始化;
- reduce()用户的业务逻辑;
- clearup() 关闭资源;
7、OutputFormat
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
线、讲解视频,并且后续会持续更新**