hive的压缩和存储格式

最新推荐文章于 2024-02-28 22:34:17 发布

滚小滚

最新推荐文章于 2024-02-28 22:34:17 发布

阅读量183

点赞数

分类专栏： hive 文章标签： hive

本文链接：https://blog.csdn.net/qq_25534101/article/details/115721718

版权

hive 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

压缩

一般使用snappy压缩方式

开启map端的压缩

案例实操：
1）开启hive中间传输数据压缩功能
hive (default)>set hive.exec.compress.intermediate=true;
2）开启mapreduce中map输出压缩功能
hive (default)>set mapreduce.map.output.compress=true;
3）设置mapreduce中map输出数据的压缩方式
hive (default)>set mapreduce.map.output.compress.codec= org.apache.hadoop.io.compress.SnappyCodec;
4）执行查询语句
select count(1) from score;

开启reduce端的压缩

1）开启hive最终输出数据压缩功能
hive (default)>set hive.exec.compress.output=true;
2）开启mapreduce最终输出数据压缩
hive (default)>set mapreduce.output.fileoutputformat.compress=true;
3）设置mapreduce最终数据输出压缩方式
hive (default)> set mapreduce.output.fileoutputformat.compress.codec = org.apache.hadoop.io.compress.SnappyCodec;
4）设置mapreduce最终数据输出压缩为块压缩
hive (default)>set mapreduce.output.fileoutputformat.compress.type=BLOCK;
5）测试一下输出结果是否是压缩文件
insert overwrite local directory ‘/export/servers/snappy’ select * from score distribute by s_id sort by s_id desc;

hive的存储格式

Hive支持的存储数的格式主要有：TEXTFILE（行式存储）、SEQUENCEFILE(行式存储)、ORC（列式存储）、PARQUET（列式存储）

行存储的特点：查询满足条件的一整行数据的时候，列存储则需要去每个聚集的字段找到对应的每个列的值，行存储只需要找到其中一个值，其余的值都在相邻地方，所以此时行存储查询的速度更快。

列存储的特点：因为每个字段的数据聚集存储，在查询只需要少数几个字段的时候，能大大减少读取的数据量；每个字段的数据类型一定是相同的，列式存储可以针对性的设计更好的设计压缩算法。

TEXTFILE格式

默认格式，数据不做压缩，磁盘开销大，数据解析开销大。

ORC格式

一个orc文件可以分为若干个Stripe
一个stripe可以分为三个部分
indexData：某些列的索引数据
rowData :真正的数据存储
StripFooter：stripe的元数据信息

Parquet格式

Parquet文件是以二进制方式存储的，所以是不可以直接读取的，文件中包括该文件的数据和元数据，因此Parquet格式文件是自解析的。

存储格式的对比

存储文件的压缩比总结：
ORC > Parquet > textFile

存储文件的查询速度总结：
ORC > TextFile > Parquet

存储和压缩相结合

创建一个snappy压缩的orc存储格式的表
create table log_orc_snappy(
track_time string,
url string,
session_id string,
referer string,
ip string,
end_user_id string,
city_id string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t’
STORED AS orc tblproperties (“orc.compress”=“SNAPPY”);

在实际的项目开发当中，hive表的数据存储格式一般选择：orc或parquet。压缩方式一般选择snappy。

滚小滚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hive的压缩和存储格式

压缩一般使用snappy压缩方式开启map端的压缩案例实操：1）开启hive中间传输数据压缩功能hive (default)>set hive.exec.compress.intermediate=true;2）开启mapreduce中map输出压缩功能hive (default)>set mapreduce.map.output.compress=true;3）设置mapreduce中map输出数据的压缩方式hive (default)>set mapreduce.ma
复制链接

扫一扫