OutputFormat
OutputFormat接口实现类
自定义OutputFormat
Join多种应用
Map Join
1.使用场景
Map Join适用于一张表十分小、一张表很大的场景。
2.优点
思考:在Reduce端处理过多的表,非常容易产生数据倾斜。怎么办?
在Map端缓存多张表,提前处理业务逻辑,这样增加Map端业务,减少Reduce端数据的压力,尽可能的减少数据倾斜。
3.具体办法:采用DistributedCache
(1)在Mapper的setup阶段,将文件读取到缓存集合中。
(2)在驱动函数中加载缓存。
// 缓存普通文件到Task运行节点。
job.addCacheFile(new URI("file://e:/cache/pd.txt"));
Reduce Join
计数器应用
Hadoop数据压缩
概述
策略与原则
MR支持的压缩编码
Gzip压缩
Bzip2压缩
Lzo压缩
Snappy压缩
压缩位置选择
压缩可以在MapReduce作用的任意阶段启用。