#博学谷IT技术支持#
一、Hive的压缩方式
- Hive的底层默认是MapReduce,压缩实际上是MapReduce的压缩。
- MapReduce压缩分为Map端结果文件压缩和Reduce端结果文件压缩。
参数设置
-- 开启Map端压缩
set hive.exec.compress.intermediate=true;
set mapreduce.map.output.compress=true;
set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;
-- 1)开启hive最终输出数据压缩功能
set hive.exec.compress.output=true;
-- 2)开启mapreduce最终输出数据压缩
set mapreduce.output.fileoutputformat.compress=true;
-- 3)设置mapreduce最终数据输出压缩方式
set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
-- 4)设置mapreduce最终数据输出压缩为块压缩
set mapreduce.output.fileoutputformat.compress.type=BLOCK;
二、Hive的存储方式
- 行存储
- TextFile:默认的文本存储
- SequenceFile
- 列存储
- ORC
- orc采用更加合理的数据摆放方式,让元数据
- ORC