hive文件格式及压缩格式

文件格式

文件格式按面向的存储形式不同,分为面向行和面向列两大类文件格式。

面向行、列类型 类型名称是否可切割计算优点缺点适用场景
面向行文本文件(.txt)YES查看编辑简单

无压缩占空间大,传输

压力大,数据解析开销大

学习练习使用
面向行

SequenceFile序列

文件格式(.seq)

YES

自支持、二进制KV

存储,支持行和块的

压缩

本地查看不方便,小文件合并

成KV格式后不易查看内部数据

生产环境使用

map输出的默认

文件格式

面向列rcfile文件格式(.rc)YES

数据加载快,查询快,

空间利用率高,高负

载能力

每一项都不是最高学习生产均可
面向列orcfile文件格式(.orc)YES

兼具rcfile优点、进一步

提高了读取、存储效率、

新数据类型的支持

每一项都不是最高学习生产均可
压缩格式

压缩格式按其可切分性,分成可切分和不可切分两种

可切分性类型名称是否Hadoop原生支持优点缺点适用场景
可切分lzo(.lzo)NO

压缩、解压速度快,

合理的压缩率


压缩率比gzip低

不原生、需要native

安装

单个文件越大,lzo

优点越越明显。压

缩完成后>=200M为宜

可切分


bzip2(.bz2)YES

高压缩率超过gzip,原生

支持,用linux bzip可解压操作

压缩、解压速率慢

处理速度要求不高,需

要高压缩率

不可切分gzip(.gz)YES

压缩解压速率快

原生、native都支持使用方便

不可切分,对cpu要

求高

压缩后文件<=130MB

适宜

不可切分snappy(.snappy)NO

高速压缩/解压速度,合理的

压缩率

压缩率比gzip低,不原生,

需要native安装

适合作为map->reduce

或是job数据流的中间数

据传输格式



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值