python xlsx 大文件_使用Python如何快速打开一个百万行级别的超大Excel文件？

最新推荐文章于 2024-05-11 07:01:06 发布

UI似

最新推荐文章于 2024-05-11 07:01:06 发布

阅读量920

点赞数 1

文章标签： python xlsx 大文件

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_33558958/article/details/113640326

版权

知乎上有同学求助说，当他试图打开一个20M左右的excel文件时，无论是使用pandas的read_excel，还是直接使用xlrd或者openpyxl模块，速度都慢到了无法忍受的程度，耗时大约1分钟左右。

真的会这样吗？第一感觉是，这位同学在使用openpyxl模块时没有设置只读模式。为便于测试，先用下面的代码生成一个一百万行数据的excel文件。

接下来定义了一个使用openpyxl模块打开文件的函数，分别考察关闭和开启只读模式的时间消耗。

运行测试，果然，不开启只读的话，真的需要1分多钟，而使用只读模式的话，则仅需0.4秒钟。

不过，也别高兴得太早，openpyxl模块并没有提供像pandas.read_excel()那样把全部数据读入一个数据结构的功能，只能定位到行、列或格子以后再读取数据。要想使用openpyxl模块把全部数据读入到数组或DataFrame中，需要遍历所有的行和列，这仍然是一个非常耗时的操作。

那么，pandas.read_excel()是否也支持只读模式呢？遗憾的是，read_excel()并没有类似read_only这样的参数。尽管read_excel()可以接受文件路径、文件对象、类文件对象，甚至是二进制数据，但即使将文件内容传入，read_excel()解析这100万行数据仍然需要大约80秒钟。下面的代码验证了这一点。

结论：处理超大的Excel文件时，使用openpyxl模块的只读模式，可以快速打开并取得指定格子的数据，但不要尝试将全部数据读入到自己定义的数据结构中，这将花费漫长的时间。对此，pandas也无能为力。

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python xlsx 大文件_使用Python如何快速打开一个百万行级别的超大Excel文件？

知乎上有同学求助说，当他试图打开一个20M左右的excel文件时，无论是使用pandas的read_excel，还是直接使用xlrd或者openpyxl模块，速度都慢到了无法忍受的程度，耗时大约1分钟左右。真的会这样吗？第一感觉是，这位同学在使用openpyxl模块时没有设置只读模式。为便于测试，先用下面的代码生成一个一百万行数据的excel文件。接下来定义了一个使用openpyxl模块打开文件的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。