python数据量太大如何解决_Python 如何处理大文件

最新推荐文章于 2024-08-19 17:47:49 发布

weixin_39681486

最新推荐文章于 2024-08-19 17:47:49 发布

阅读量7.3k

点赞数

文章标签： python数据量太大如何解决

本文链接：https://blog.csdn.net/weixin_39681486/article/details/111459559

版权

本文探讨了在Python中使用Pandas处理大数据文件的挑战，提出了逐行读取、分块读取和使用外部排序等策略。通过实例展示了如何进行聚合、过滤和排序操作，强调了Python在处理大数据时的局限性，并推荐了SPL作为一种更高效的选择。

摘要由CSDN通过智能技术生成

Python作为一门程序设计语言，在易读、易维护方面有独特优势，越来越多的人使用 Python 进行数据分析和处理，而 Pandas 正是为了解决数据分析任务而创建的，其包含大量能便捷处理数据的函数和方法，使得数据处理变得容易，它也是使 Python 成为强大而高效的数据分析环境的重要因素之一。

但是 Pandas 是个内存的类库，用于处理小数据(能放入内存)没问题，对于大数据(内存放不下)就没有那么方便了。而我们平时工作中却能经常碰到这种较大的文件(从数据库或网站下载出来的数据)，Pandas 无能为力，我们就只能自己想办法，本文就来讨论这个问题。

本文所说的大数据，并不是那种 TB、PB 级别的需要分布式处理的大数据，而是指普通 PC 机内存放不下，但可以存在硬盘内的 GB 级别的文件数据，这也是很常见的情况。

由于此类文件不可以一次性读入内存，所以在数据处理的时候，通常需要采用逐行或者分块读取的方式进行处理，虽然 Python 和 pandas 在读取文件时支持这种方式，但因为没有游标系统，使得一些函数和方法需要分段使用或者函数和方法本身都需要自己写代码来完成，下面我们就最常见的几类问题来进行介绍，并写出代码示例供读者参考和感受。

一、聚合

简单聚合只要遍历一遍数据，按照聚合目标将聚合列计算一遍即可。如：求和(sum)，遍历数据时对读取的数据进行累加；计数(count)，遍历数据时，记录遍历数即可；平均(mean)，遍历时同时记录累计和和遍历数，最后相除即可。这里以求和问题为例进行介绍。

设有如下文件，数据片段如下：

现在需要计算销售总额(amount 列)

(一)逐行读取

total=0

with open("orders.txt",'r') as f:

line=f.readline()

while True:

line = f.readline()

if not line:

break