【python】【Memory leak】urllib2, request内存泄露问题解决方案

最新推荐文章于 2024-06-05 10:39:18 发布

冰糖少女

最新推荐文章于 2024-06-05 10:39:18 发布

阅读量6.3k

点赞数 2

分类专栏： python 内存泄露爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/TiffanyRabbit/article/details/80580056

版权

python 同时被 3 个专栏收录

12 篇文章 1 订阅

订阅专栏

爬虫

2 篇文章 0 订阅

订阅专栏

内存泄露

1 篇文章 0 订阅

订阅专栏

提到python，很多人的第一直觉大概就是爬虫和网络相关。然而最近使用python2.7 urllib2和request的时候却无意中发现可能存在严重的内存泄漏问题，或者说垃圾回收有问题。stackoverflow了一下，确实有很多人反应了相关的问题，至今还没解决。综合了各种解决方案，最终确定了一种临时的替代方案，在此记录和分享。

问题介绍 & 重现

用过python进行大量网络请求的童鞋，可能都会发现，当请求达到一定量之后会出现内存问题，无法再进行请求。下面，我们用利用python内置的gc库看一下urllib2和request请求过后的内存回收情况。

import gc, urllib, urllib2, requests
def get_unreachable_memory_len():
    # check memory on memory leaks
    gc.set_debug(gc.DEBUG_SAVEALL)
    gc.collect()
    unreachableL = []
    for it in gc.garbage:
        unreachableL.append(it)
    print str(unreachableL)
    return len(str(unreachableL))

def request_with_urllib2(url):
    resp = urllib2.urlopen(url)
    return resp.read()

def request_with_requests(url):
    resp = requests.get(url)
    return resp.content

启动python，先调用一下get_unreachable_memory_len()看一下当前有没有内存泄露：
这里写图片描述
返回是为空，证明没有memory leak.

运行request_with_urllib2('http://www.ah.xinhuanet.com/titlepic/1117418255_1449717108394_title1n.jpg')之后我们拿到了长度为41536的胡歌歌的照片：
这里写图片描述但不幸的是，我们看内存：

由于网络请求没有被正确回收，导致内存出现了一定的泄露，这部分泄露是response中没有被处理的部分。

同理我们再试一下request_with_requests('http://www.ah.xinhuanet.com/titlepic/1117418255_1449717108394_title1n.jpg')
这里写图片描述

同样，在进行requests.get后，内存回收也出现了问题。

解决方案

在若干次实验后，终于找到了较为理想的解决方案，也就是暂时用urllib+contextlib.closing的组合进行临时替代。这样可以在不换掉python2.7的条件下，实现不伤害内存的网络请求。

from contextlib import closing
def url_request(url): # request without memory leak
    res = None
    with closing(urllib.urlopen(url)) as resp:
        res = resp.read()
    return res

同样的方法，我们来试一下这种方案。(注意此处要重启一个新的python shell测试哦～)

get_unreachable_memory_len()
url_request('http://www.ah.xinhuanet.com/titlepic/1117418255_1449717108394_title1n.jpg')
get_unreachable_memory_len()

这里写图片描述
从图片中我们可以清楚的看到，通过url_request我们不仅获取了胡歌歌的大图，还完成了完整的response回收，通过gc检查内存也没有任何问题。妥妥的解决～

冰糖少女

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
【python】【Memory leak】urllib2, request内存泄露问题解决方案

提到python，很多人的第一直觉大概就是爬虫和网络相关。然而最近使用python2.7 urllib2和request的时候却无意中发现可能存在严重的内存泄漏问题，或者说垃圾回收有问题。stackoverflow了一下，确实有很多人反应了相关的问题，至今还没解决。综合了各种解决方案，最终确定了一种临时的替代方案，在此记录和分享。问题介绍 &amp;amp;amp;amp; 重现用过python进行大量网...
复制链接

扫一扫

专栏目录