我有一个python脚本,它可以抓取一些url。我有一个url列表,对于每个url,我得到html并用它做一些逻辑。在
我使用Python2.7.6和LinuxMint17肉桂64位。在
问题我的主要抓取对象(我为每个url实例)从未从内存中释放,尽管没有对它的引用。有了这个问题,我的记忆就一直在快速增长(因为我的对象有时非常大,高达50MB)。在
简化代码如下所示:def scrape_url(url):
"""
Simple helper method for scraping url
:param url: url for scraping
:return: some result
"""
scraper = Scraper(url) # instance main Scrape object
result = scraper.scrape() # scrape it
return result
## SCRIPT STARTS HERE
urls = get_urls() # fetch some list of urls
for url in urls:
print 'MEMORY USAGE BEFORE SCRAPE: %s (kb)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
result = scrape_url(url) # call helper method for scraping
print 'MEMORY USAGE AFTER SCRAPE: %s (kb)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
print '-' * 50
我的输出是这样的:
^{pr2}$
Scrape对象很大,并且没有从内存中释放。
我试过了:scraper = None
del scraper
甚至调用gc来收集对象:gc.collect()
但没什么帮助。在
当我打印对scraper对象的引用数时:print sys.getrefcount(scraper)
我得到2这意味着没有其他对象引用,应该由gc清理。在
Scraper对象有很多子对象。可能是it子对象的一些引用被留在某个地方,因此gc不能释放主Scaper对象,或者python不释放内存还有其他原因吗?在
我在SO和一些响应中发现了一些关于这个问题的主题,他们说除非您正在生成/杀死子进程,否则内存无法释放,这听起来很奇怪(LINK)
谢谢,
伊万
在Python 2.7.6和Linux Mint 17上运行的脚本在抓取网页时,内存占用不断增加,即使对象没有引用也未释放。尝试设置对象为None、使用del关键字及调用gc.collect()都无法解决问题。Scrape对象及其子对象可能存在引用泄露,导致垃圾回收器无法清理。目前怀疑子对象的某些引用阻止了主Scrape对象的释放,或者Python本身存在内存管理问题。
3949

被折叠的 条评论
为什么被折叠?



