Hive-day07-压缩和存储

1:MR支持的压缩编码

2:开启Map输出阶段压缩(MR引擎)

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。

        1:开启hive中间传输数据压缩功能

hive (default)>set hive.exec.compress.intermediate=true;

        2:开启mapreduce中map输出压缩功能

hive (default)>set mapreduce.map.output.compress=true;

        3:设置mapreduce中map输出数据的压缩方式

hive (default)>set mapreduce.map.output.compress.org.apache.hadoop.io.compress.SnappyCodec;

        4:执行查询的语句

hive (default)> select count(ename) name from emp;

3:开启Reduce输出阶段压缩

        1:开启hive最终输出数据压缩功能

hive (default)>set hive.exec.compress.output=true;

        2:开启mapreduce最终输出数据压缩

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

        3:设置mapreduce最终数据输出压缩方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
org.apache.hadoop.io.compress.SnappyCodec;

        4:设置mapreduce最终数据输出压缩为块压缩

hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

        5:测试一下输出结果是否是压缩文件

hive (default)> insert overwrite local directory '/opt/module/data/distribute-result' select * from emp distribute by deptno sort by empno desc;

4:行式存储和列式存储

Hive支持的存储数据的格式主要有:TEXTFILE、SEQUENCEFILE、ORC、PARQUET

 行式存储的特点

        查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。

列式存储的特点

        因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。

TEXTFILE和 SEQUENCEFILE 的存储格式都是基于行存储的;

ORC和PARQUET是基于列式存储的。

5:ORC格式(列式存储)

有多个stripe,每个stripe可进行独立存储。每个stripe里面有三部分组成,分别是index data,row data,stripe footer。

1:index data::一个轻量级的 index ,默认是 每隔 1W 行做一个索引 。这里做的索引应该只是记录某行的各字段在 Row Data 中的 offset 。

2:row data::存的是具体的数据,先取部分行,然后对这些行按列进行存储 。 对每个列进行了编码,分成多个 Stream 来存储 。

3:stripe footer:存的是各个stream的类型,长度等信息

每个文件有一个File Footer ,这里面存的是每个 Stripe 的行数,每个 Column 的数据类型信息等;每个文件的尾部是一个 PostScript ,这里面记录了整个文件的压缩类型以及FileFooter 的长度信息等。在读取文件时,会 seek 到文件尾部读 PostScript ,从里面解析到File Footer 长度,再读 FileFooter ,从里面解析到各个 Stripe 信息,再读各个 Stripe ,即从后往前读。

        

        压缩和存储是不一样的,像TEXTFILE、SEQUENCEFILE、ORC、PARQUET等都是文件存储的格式。然后压缩就是一些压缩算法,像snappy、bizp2、Gzip等,所以这两种是可以进行综合测试进行调优的。比如可以采用ORC的文件存储配合上snappy的压缩算法。

       

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

总会有天明

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值