Hive-day07-压缩和存储

最新推荐文章于 2023-11-09 16:24:31 发布

总会有天明

最新推荐文章于 2023-11-09 16:24:31 发布

阅读量92

点赞数

分类专栏： Hive 文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/AlphaG/article/details/121311852

版权

Hive 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

1：MR支持的压缩编码

2：开启Map输出阶段压缩（MR引擎）

开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。

1：开启hive中间传输数据压缩功能

hive (default)>set hive.exec.compress.intermediate=true;

2：开启mapreduce中map输出压缩功能

hive (default)>set mapreduce.map.output.compress=true;

3：设置mapreduce中map输出数据的压缩方式

hive (default)>set mapreduce.map.output.compress.org.apache.hadoop.io.compress.SnappyCodec;

4：执行查询的语句

hive (default)> select count(ename) name from emp;

3：开启Reduce输出阶段压缩

1：开启hive最终输出数据压缩功能

hive (default)>set hive.exec.compress.output=true;

2：开启mapreduce最终输出数据压缩

hive (default)>set mapreduce.output.fileoutputformat.compress=true;

3：设置mapreduce最终数据输出压缩方式

hive (default)> set mapreduce.output.fileoutputformat.compress.codec =
org.apache.hadoop.io.compress.SnappyCodec;

4：设置mapreduce最终数据输出压缩为块压缩

hive (default)> set mapreduce.output.fileoutputformat.compress.type=BLOCK;

5：测试一下输出结果是否是压缩文件

hive (default)> insert overwrite local directory '/opt/module/data/distribute-result' select * from emp distribute by deptno sort by empno desc;

4：行式存储和列式存储

Hive支持的存储数据的格式主要有：TEXTFILE、SEQUENCEFILE、ORC、PARQUET

行式存储的特点

查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

列式存储的特点

因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

TEXTFILE和 SEQUENCEFILE 的存储格式都是基于行存储的；

ORC和PARQUET是基于列式存储的。

5：ORC格式（列式存储）

有多个stripe，每个stripe可进行独立存储。每个stripe里面有三部分组成，分别是index data，row data，stripe footer。

1：index data：：一个轻量级的 index ，默认是每隔 1W 行做一个索引。这里做的索引应该只是记录某行的各字段在 Row Data 中的 offset 。

2：row data：：存的是具体的数据，先取部分行，然后对这些行按列进行存储。对每个列进行了编码，分成多个 Stream 来存储。

3：stripe footer：存的是各个stream的类型，长度等信息

每个文件有一个File Footer ，这里面存的是每个 Stripe 的行数，每个 Column 的数据类型信息等；每个文件的尾部是一个 PostScript ，这里面记录了整个文件的压缩类型以及FileFooter 的长度信息等。在读取文件时，会 seek 到文件尾部读 PostScript ，从里面解析到File Footer 长度，再读 FileFooter ，从里面解析到各个 Stripe 信息，再读各个 Stripe ，即从后往前读。

压缩和存储是不一样的，像TEXTFILE、SEQUENCEFILE、ORC、PARQUET等都是文件存储的格式。然后压缩就是一些压缩算法，像snappy、bizp2、Gzip等，所以这两种是可以进行综合测试进行调优的。比如可以采用ORC的文件存储配合上snappy的压缩算法。

总会有天明

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Hive-day07-压缩和存储

1：MR支持的压缩编码2：开启Map输出阶段压缩（MR引擎）开启map输出阶段压缩可以减少job中map和Reduce task间数据传输量。 1：开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true; 2：开启mapreduce中map输出压缩功能hive (default)>set mapreduce.map.output.compress=t...
复制链接

扫一扫