第八章:数据压缩与归档-bz2:bzip2压缩-内存中的一次性操作

8.3 bz2:bzip2压缩
bz2模块是bzip2库的一个接口,用于压缩数据以便存储或传输。为此,它提供了3个API:
“一次性”压缩/解压缩函数,用以处理大数据块(blob)。
迭代式压缩/解压缩对象,用来处理数据流。
一个类似文件的类,支持像读写为压缩文件一样读写压缩文件。

8.3.1 内存中的一次性操作
使用bz2最简单的方法是将所有要压缩或解压缩的数据加载到内存中,然后分别使用compress()和decompress()来完成转换。

import bz2
import binascii

original_data = b'This is the original text.'
print('Original     : {} bytes'.format(len(original_data)))
print(original_data)

print()
compressed = bz2.compress(original_data)
print('Compressed   : {} bytes'.format(len(compressed)))
hex_version = binascii.hexlify(compressed)
for i in range(len(hex_version) // 40 + 1):
    print(hex_version[i * 40:(i + 1) * 40])

print()
decompressed = bz2.decompress(compressed)
print('Decompressed : {} bytes'.format(len(decompressed)))
print(decompressed)

压缩数据包含非ACSII字符,所以在打印之前需要先转换为其十六进制表示。在这些例子的输出中,我们调整了十六进制表示,使每行最多有40个字符。
运行结果:
在这里插入图片描述
对于短文本,压缩版本的长度可能打打超过原来的文本。具体的结果取决于输入数据,不过观察压缩开销很有意思。

import bz2

original_data = b'This is the original text.'

fmt = '{:>15} {:>15}'
print(fmt.format('len(data)','len(compressed)'))
print(fmt.format('-' * 15,'-' * 15))

for i in range(5):
    data = original_data * i
    compressed = bz2.compress(data)
    print(fmt.format(len(data),len(compressed)),end='')
    print('*' if len(data) < len(compressed) else '')

末尾是*字符的输出行表示这一行压缩数据比原输入数据更长。
运行结果:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值