compress压缩优化:大大减少磁盘IO以及网络IO
MapReduce有很多地方都可以压缩
Hadoop常见的压缩格式
检查本地库支持哪些压缩:
bin/hadoop checknative
修改压缩库,只需要替换native包即可
常用用的压缩格式:snappy;lzo;lz4
hadoop中设置压缩
原理:map的中间结果:
mapreduce.map.output.compress = true;
maprduce.map.output.compress.codec=org.apache.hadoop.io.compress.Lz4Codec
压缩方式的寻找:DefaultCodec -》找打该类的目录-》其他压缩类和他在同一个目录下!
配置方式:
方式一:main方法中Configuration
方式二:在配置文件中
全局修改,所有MapReduce都生效
方式三:运行的时候通过自定义配置
bin/yarn jar 运行jar包.jar -D压缩属性=yy -D压缩属性=bb 运行主类 input_path(输入目录) output_Path(输出目录)
检查是否配置成功
方式一:
web中8088端口 -》history -》Configuration-》查看对应配置参数
方式二:查看计数器,Linux中的结果输出信息
Map output materialized bytes