python释放内存代码_在python脚本中释放内存

在Python 2.7.6和Linux Mint 17上运行的脚本在抓取网页时,内存占用不断增加,即使对象没有引用也未释放。尝试设置对象为None、使用del关键字及调用gc.collect()都无法解决问题。Scrape对象及其子对象可能存在引用泄露,导致垃圾回收器无法清理。目前怀疑子对象的某些引用阻止了主Scrape对象的释放,或者Python本身存在内存管理问题。
摘要由CSDN通过智能技术生成

我有一个python脚本,它可以抓取一些url。我有一个url列表,对于每个url,我得到html并用它做一些逻辑。在

我使用Python2.7.6和LinuxMint17肉桂64位。在

问题我的主要抓取对象(我为每个url实例)从未从内存中释放,尽管没有对它的引用。有了这个问题,我的记忆就一直在快速增长(因为我的对象有时非常大,高达50MB)。在

简化代码如下所示:def scrape_url(url):

"""

Simple helper method for scraping url

:param url: url for scraping

:return: some result

"""

scraper = Scraper(url) # instance main Scrape object

result = scraper.scrape() # scrape it

return result

## SCRIPT STARTS HERE

urls = get_urls() # fetch some list of urls

for url in urls:

print 'MEMORY USAGE BEFORE SCRAPE: %s (kb)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

result = scrape_url(url) # call helper method for scraping

print 'MEMORY USAGE AFTER SCRAPE: %s (kb)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss

print '-' * 50

我的输出是这样的:

^{pr2}$

Scrape对象很大,并且没有从内存中释放。

我试过了:scraper = None

del scraper

甚至调用gc来收集对象:gc.collect()

但没什么帮助。在

当我打印对scraper对象的引用数时:print sys.getrefcount(scraper)

我得到2这意味着没有其他对象引用,应该由gc清理。在

Scraper对象有很多子对象。可能是it子对象的一些引用被留在某个地方,因此gc不能释放主Scaper对象,或者python不释放内存还有其他原因吗?在

我在SO和一些响应中发现了一些关于这个问题的主题,他们说除非您正在生成/杀死子进程,否则内存无法释放,这听起来很奇怪(LINK)

谢谢,

伊万

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>