大数据中的压缩

随着大数据的增长,压缩技术变得至关重要。本文介绍了压缩的原因、类型,如无损压缩和有损压缩,并比较了BZIP2、GZIP和LZO等不同压缩格式的压缩比率和速度。同时讨论了在Hadoop环境中的压缩配置,包括gzip、bzip2、LZO和snappy等Codec的优缺点及其在Hadoop生态系统中的应用。
摘要由CSDN通过智能技术生成
为什么要使用压缩

随着数据量越来越大,对数据如何处理使得我们提高数据处理效率,如何选择和使用压缩就显得尤为重要。
压缩的优点:
1)减少文件大小(reduce file size)
2)节省磁盘空间(svae disk space)
3)增加网络传输速度及效率(Increase tansfer speed at a given data rate)


压缩技术

压缩分为无损压缩(Lossless Compression)和有损压缩(Lossy Compression)。
无损压缩一般适用于用户行为数据这类不允许数据丢失的业务场景、
有损压缩一般适用于大文件的压缩,例如图片、视频的处理,优点是压缩率和压缩比都比较高,可以节省更多的空间。

以离线数据处理为例:
在这里插入图片描述
分为三个业务场景,输入、中间、输出。日志采集压缩输入HDFS,解压通过Spark/MapReduce计算,再压缩存入对应的数据源。


压缩对比

压缩可以带来入前文所说的好处,但是,在压缩的同时对CPU的消耗也相对较高,那么在压缩的时候就要做最优选择,做性价比最高的压缩处理。

压缩格式 压缩工具 算法 文件名扩展 是否支持分割
gzip gzip default .gz ×
bzip2 bzip2 bzip2 .bz2
LZO LZO LZO .lzo √(Yes if indexed)
LZ4 LZ4 LZ4 .lz4 ×</
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值