hdfs orc格式_hive表的存储格式; ORC格式的使用

最新推荐文章于 2023-07-27 13:58:29 发布

weixin_40007515

最新推荐文章于 2023-07-27 13:58:29 发布

阅读量1.1k

点赞数

文章标签： hdfs orc格式

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40007515/article/details/111756314

版权

hive表的源文件存储格式有几类：

1、TEXTFILE

默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看

2、SEQUENCEFILE 一种Hadoop API提供的二进制文件，使用方便、可分割、可压缩等特点。

SEQUENCEFILE将数据以的形式序列化到文件中。序列化和反序列化使用Hadoop 的标准的Writable 接口实现。key为空，用value 存放实际的值，这样可以避免map 阶段的排序过程。

三种压缩选择：NONE, RECORD, BLOCK。 Record压缩率低，一般建议使用BLOCK压缩。使用时设置参数，

SET hive.exec.compress.output=true;

SET io.seqfile.compression.type=BLOCK; -- NONE/RECORD/BLOCK

create table test2(str STRING) STORED AS SEQUENCEFILE;

3、RCFILE

一种行列存储相结合的存储方式。首先，其将数据按行分块，保证同一个record在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩和快速的列存取。

理论上具有高查询效率(但hive官方说效果不明显，只有存储上能省10%的空间，所以不好用，可以不用)。

RCFile结合行存储查询的快速和列存储节省空间的特点

1)同一行的数据位于同一节点，因此元组重构的开销很低；

2) 块内列存储，可以进行列

最低0.47元/天解锁文章

weixin_40007515

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hdfs orc格式_hive表的存储格式; ORC格式的使用

hive表的源文件存储格式有几类：1、TEXTFILE默认格式，建表时不指定默认为这个格式，导入数据时会直接把数据文件拷贝到hdfs上不进行处理。源文件可以直接通过hadoop fs -cat 查看2、SEQUENCEFILE 一种Hadoop API提供的二进制文件，使用方便、可分割、可压缩等特点。SEQUENCEFILE将数据以的形式序列化到文件中。序列化和反序列化使用Hadoop 的标准的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。