数仓工具hive(四):Hive文件存储格式以及优缺点

本文介绍了Hive支持的存储格式,包括TEXTFILE、SEQUENCEFILE、RCFILE和ORCFILE、PARQUET。行存储在查询整行数据时速度较快,列存储在查询部分列时更节省I/O。各文件格式有其特定优缺点:TEXTFILE简单但占用空间大,适合小型查询;SEQUENCEFILE压缩且可并行操作,适合数据量小的情况;RCFILE和ORCFILE提供高效的列存取,适合大量数据存储;PARQUET是高效的列存储格式,适用于大规模数据分析。
摘要由CSDN通过智能技术生成

前言

Hive支持的存储数的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET。

行与列存储的特点

行存储的特点

查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。

列存储的特点

因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段的数据类型一定是相同的,列式存储可以针对性的设计更好的设计压缩算法。

Hive文件存储格式以及优缺点

textfile

  • 默认的文件格式,行存储。建表时不指定存储格式即为textfile,导入数据时把数据文件拷贝至hdfs不进行处理
  • 优点:最简单的数据格式,便于和其他工具(Pig, grep, sed, awk)共享数据,便于查看和编辑;加载较快
  • 缺点:耗费存储空间,I/O性能较低;Hive不进行数据切分合并,不能进行并行操作,查询效率低
  • 场景:适用于小型查询,查看具体数据内容的测试操作

sequencefile

  • 含有键值对的二进制文件,行存储
  • 优点:可压缩、可分割,优化磁盘利用率和I/O;可并行操作数据,查
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值