1:MR支持的压缩编码
2:开启Map输出阶段压缩(MR引擎)
开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。
1:开启hive中间传输数据压缩功能
hive (default)>set hive.exec.compress.intermediate=true;
2:开启mapreduce中map输出压缩功能
hive (default)>set mapreduce.map.output.compress=true;
3:设置mapreduce中map输出数据的压缩方式
hive (default)>set mapreduce.map.output.compress.org.apache.hadoop.io.compress.SnappyCodec;
4:执行查询的语句
hive (default)> select count(ename) name from emp;
3:开启Reduce输出阶段压缩
1:开启hive最终输出数据压缩功能
hive (default)>set hive.exec.compress.output=true;
2:开启mapreduce最终输出数据压缩
hive (default)>set mapreduce.output.fileoutputformat.compress=true;
3:设置mapreduce最终数据输出压缩方式
hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
org.apache.hadoop.io.compress.SnappyCodec;
4:设置mapreduce最终数据输出压缩为块压缩
hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;
5:测试一下输出结果是否是压缩文件
hive (default)> insert overwrite local directory '/opt/module/data/distribute-result' select * from emp distribute by deptno sort by empno desc;
4:行式存储和列式存储
Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET
行式存储的特点
查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。
列式存储的特点
因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。
TEXTFILE和 SEQUENCEFILE 的存储格式都是基于行存储的;
ORC和PARQUET是基于列式存储的。
5:ORC格式(列式存储)
有多个stripe,每个stripe可进行独立存储。每个stripe里面有三部分组成,分别是index data,row data,stripe footer。
1:index data::一个轻量级的 index ,默认是 每隔 1W 行做一个索引 。这里做的索引应该只是记录某行的各字段在 Row Data 中的 offset 。
2:row data::存的是具体的数据,先取部分行,然后对这些行按列进行存储 。 对每个列进行了编码,分成多个 Stream 来存储 。
3:stripe footer:存的是各个stream的类型,长度等信息
每个文件有一个File Footer ,这里面存的是每个 Stripe 的行数,每个 Column 的数据类型信息等;每个文件的尾部是一个 PostScript ,这里面记录了整个文件的压缩类型以及FileFooter 的长度信息等。在读取文件时,会 seek 到文件尾部读 PostScript ,从里面解析到File Footer 长度,再读 FileFooter ,从里面解析到各个 Stripe 信息,再读各个 Stripe ,即从后往前读。
压缩和存储是不一样的,像TEXTFILE、SEQUENCEFILE、ORC、PARQUET等都是文件存储的格式。然后压缩就是一些压缩算法,像snappy、bizp2、Gzip等,所以这两种是可以进行综合测试进行调优的。比如可以采用ORC的文件存储配合上snappy的压缩算法。