我有一个python脚本,它可以抓取一些url。我有一个url列表,对于每个url,我得到html并用它做一些逻辑。在
我使用Python2.7.6和LinuxMint17肉桂64位。在
问题我的主要抓取对象(我为每个url实例)从未从内存中释放,尽管没有对它的引用。有了这个问题,我的记忆就一直在快速增长(因为我的对象有时非常大,高达50MB)。在
简化代码如下所示:def scrape_url(url):
"""
Simple helper method for scraping url
:param url: url for scraping
:return: some result
"""
scraper = Scraper(url) # instance main Scrape object
result = scraper.scrape() # scrape it
return result
## SCRIPT STARTS HERE
urls = get_urls() # fetch some list of urls
for url in urls:
print 'MEMORY USAGE BEFORE SCRAPE: %s (kb)' % resource.getrusage(resource.RUSAGE_SELF).ru_maxrss
result = scrape_url(url) # call helper method for scraping
print 'MEMORY USAGE AFTER SCRAPE: %s (kb)' % resource.getrusa