python 解压zip 慢_Python 中最快解压 zip 文件的方法

最新推荐文章于 2023-05-29 17:35:16 发布

weixin_39609483

最新推荐文章于 2023-05-29 17:35:16 发布

阅读量525

点赞数

文章标签： python 解压zip 慢

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39609483/article/details/112932174

版权

假设现在的上下文(LCTT 译注：context，计算机术语，此处意为业务情景)是这样的：一个 zip 文件被上传到一个Web 服务中，然后 Python 需要解压这个 zip 文件然后分析和处理其中的每个文件。这个特殊的应用查看每个文件各自的名称和大小，并和已经上传到 AWS S3 上的文件进行比较，如果文件(和 AWS S3 上的相比)有所不同或者文件本身更新，那么就将它上传到 AWS S3。

Uploads today

挑战在于这些 zip 文件太大了。它们的平均大小是 560MB 但是其中一些大于 1GB。这些文件中大多数是文本文件，但是其中同样也有一些巨大的二进制文件。不同寻常的是，每个 zip 文件包含 100 个文件但是其中 1-3 个文件却占据了多达 95% 的 zip 文件大小。

最开始我尝试在内存中解压文件，并且每次只处理一个文件。在各种内存爆炸和 EC2 耗尽内存的情况下，这个方法壮烈失败了。我觉得这个原因是这样的。最开始你有 1GB 文件在内存中，然后你现在解压每个文件，在内存中大约就要占用 2-3GB。所以，在很多次测试之后，解决方案是将这些 zip 文件复制到磁盘上(在临时目录 /tmp中)，然后遍历这些文件。这次情况好多了但是我仍然注意到了整个解压过程花费了巨量的时间。是否可能有方法优化呢？

原始函数

首先是下面这些模拟对 zip 文件中文件实际操作的普通函数：

def _count_file(fn):

with open(fn, 'rb') as f:

return _count_file_object(f)

def _count_file

最低0.47元/天解锁文章

weixin_39609483

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 解压zip 慢_Python 中最快解压 zip 文件的方法

假设现在的上下文(LCTT 译注：context，计算机术语，此处意为业务情景)是这样的：一个 zip 文件被上传到一个Web 服务中，然后 Python 需要解压这个 zip 文件然后分析和处理其中的每个文件。这个特殊的应用查看每个文件各自的名称和大小，并和已经上传到 AWS S3 上的文件进行比较，如果文件(和 AWS S3 上的相比)有所不同或者文件本身更新，那么就将它上传到 AWS S3。...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。