你所做的并没有本质上的错误。如果内存使用量随着查询的大小而扩展,则会发生以下情况之一:您正在泄漏对所接收结果的引用;例如,将它们放入某个列表中。我想如果你这么做你会知道的。在
从查询中读取新行时,数据库绑定或基础库没有从以前的行中释放内存。这通常是一个臭虫。如果启用了调试功能,它可能会正常发生,但在默认情况下不应该发生。在
请注意,底层库可能会缓存一定量的数据,因此可能会占用大量内存,但除非配置出现灾难性错误,否则不应为3GB。在
下面是一些简单的SQLite代码,它可以重现您正在做的事情。运行时,它会创建一个包含1500万行的简单表,对于我使用的版本,这个表在磁盘上大约是180MB。然后它选择所有这些数据,丢弃结果,然后休眠,这样您就可以检查结果了。在我的系统上,生成的进程只使用15MB。在
(请注意,我使用单独的调用运行create_db和read_db过程;创建数据库需要一些时间。)
SQLite可以处理这个问题,任何支持生产服务器的数据库,如MySQL和Postgresql也应该能够处理。SELECT结果是一个数据流,数据库应该能够轻松地处理无限大小的流。在import sqlite3
def create_db(conn):
c = conn.cursor()
c.execute('create table test (i integer)')
conn.commit()
max_val = 15000000
chunk = 1000000
for start in xrange(0, max_val, c