Hive的优化
所谓的调优就是在总资源不变的情况下尽可能提高job执行的效率 无外乎cpu的负载优化磁盘网络io一、压缩 1)数据源压缩:我们业务中ods层使用了snappy压缩 虽然不支持切片但是由于我们的hdfs sink控制了滚动大小128M所以用户行为数据不涉及切片问题 数据量还是很小的 2)输入端 mapper端 reducer端都可以采用压缩 map输出端采用压缩可以减少job中map和reducetask之间数据的传输量reduce端输出阶段压缩:当hive将输出写入到表中输出的内...





