目录
概述:
分布式集群安装:
HDFS
秘书节点可以手动切换为namenode。
hdfs优缺点:
hdfs的应用:
使用java api控制hadoop:windows平台
运行程序,指定linux集群的登录用户才有权限。
或者在创建fs指定:
注意,代码中设置优先级最高,即最终加载。
末尾追加可以通过下载,但追加内容不会得到。
其他常用api:
IO流操作:
hdfs的四大机制,两大核心:
安全机制:
机架策略:副本存放机制:
负载均衡:
两大核心:
hdfs文件上传
文件下载:
元数据管理:
checkpoint过程:
Map Reduce
实现wordcount功能:
MAP类
Reduce类:
main方法:
mapreduce的编程套路:
maptask和reducetask并行度:
reducetask任务;
自定义分区算法:
例题:统计用户的上下行流量
自定义类:
map:
reduce:
driver类:
Combiner:
平均值有精度损失。
全局计数器:
例题:统计一篇文章总行数和总字段数
多job串联:
分组组件:
mapper
以上一套代码发现问题如下:
改进方法:
Join过程:
map端的join:
Shuffle:
环形缓冲区:
map端的shuffle
reduce的shuffle
输入类解析:
例子,合并十个文件:
文件自定义输出:
Yarn
job的提交过程: