hive 修改表的存储格式_hive表存储格式及压缩

最新推荐文章于 2021-10-13 16:48:45 发布

涂姬

最新推荐文章于 2021-10-13 16:48:45 发布

阅读量2.1k

点赞数

文章标签： hive 修改表的存储格式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42228776/article/details/111917671

版权

1.textfile

Hive数据表的默认格式，磁盘开销大，数据解析开销大

存储方式：行存储

压缩方式：使用Gzip,Bzip2等压缩算法压缩，压缩后的文件不支持split

但在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。

--创建数据表：

create table if not exists textfile_table(

site string,

url string,

pv bigint,

label string)

row format delimited fields terminated by '\t'

stored as textfile;

--插入数据：

set hive.exec.compress.output=true; --启用压缩格式

set mapred.output.compress=true;

set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; --指定输出的压缩格式为Gzip

set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;

insert overwrite table textfile_table select * from T_Name;

2.sequencefile

Hadoop API提供的一种二进制文件，以的形式序列化到文件中

存储方式：行

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
hive 修改表的存储格式_hive表存储格式及压缩

1.textfileHive数据表的默认格式，磁盘开销大，数据解析开销大存储方式：行存储压缩方式：使用Gzip,Bzip2等压缩算法压缩，压缩后的文件不支持split但在反序列化过程中，必须逐个字符判断是不是分隔符和行结束符，因此反序列化开销会比SequenceFile高几十倍。--创建数据表：create table if not exists textfile_table(site strin...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。