额,好多东东读不懂啊。。。。
计数器
- 作用:计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅助诊断系统故障。
- 任务计数器
- 文件系统计数器
- FileInputFormat 计数器
- FileOutputFormat计数器
- 作业计数器
- 作业计数器由application master维护,因此无需在网络间传输数据
- 用户定义的java计数器
- 用户定义的Streaming 计数器
排序
- 部分排序
- 许多应用并不强求待处理的文件全局有序
- 全排序
- 思路:首先,创建一系列排好序的文件 其次 串联这些文件 最后生成一个全局排序的文件。主要思路是使用一个partitioner来描述输出的全局排序
连接
- MapReduce 能够执行大型数据集间的“连接”操作
- map端连接
- reduce 端连接 更常用
边数据分布
- 是作业所需的额外的只读数据,已辅助处理主数据集
- 利用JobConf来配置作业
- 分布式缓存