大数据压缩算法总结

本文总结了大数据压缩中常用的gzip, lzo, snappy和bzip2四种算法,包括它们的压缩效率、是否可split以及适用场景。尽管snappy压缩速度较快,但压缩比一般;gzip压缩率高但不支持split;lzo支持split但需额外索引;bzip压缩比最高但速度慢。在列存文件如parquet或Avro中,即使使用gzip和snappy,由于压缩发生在页面级别,因此仍可split。parquet文件的row-group和column-chunk压缩提供了平衡压缩和split的能力。" 121751361,11485416,使用Open3D实现3D点云的交互式裁剪,"['3D可视化', 'Python编程', '交互功能', 'Open3D库', '点云处理']
摘要由CSDN通过智能技术生成

1:最主流的四种

gzip 压缩比较高,不可 split (行文件),hadoop 自带 (apache 协议)

lzo 支持 split,但需要额外的索引文件,自定安装( GPL 协议)

snappy 压缩速度快,压缩比一般,不可 split (行文件),自定安装( GPL 协议)

bzip 压缩比最高,但是压缩慢,自定安装

压缩格式gzip/snappy/lzo/bzip2 比较与总结_zzhongcy的博客-CSDN博客_lzo压缩比例

1. Data Modeling in Hadoop - Hadoop Application Architectures [Book]

2:列存文件即使使用 gzip和

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

MISAYAONE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值