![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
冰糖少女
人生苦短,我爱python
展开
-
【python】【Memory leak】urllib2, request内存泄露问题解决方案
提到python,很多人的第一直觉大概就是爬虫和网络相关。然而最近使用python2.7 urllib2和request的时候却无意中发现可能存在严重的内存泄漏问题,或者说垃圾回收有问题。stackoverflow了一下,确实有很多人反应了相关的问题,至今还没解决。综合了各种解决方案,最终确定了一种临时的替代方案,在此记录和分享。问题介绍 & 重现用过python进行大量网...原创 2018-06-05 13:53:48 · 6332 阅读 · 1 评论 -
【python网络爬虫与NLP系列】一、利用scrapy+redis实现新闻网站增量爬取
写在前头:为了督促自己完成2018上半年的个人小任务,决定在平台上记录和分享完成的过程和心得。时间有限,但尽量详细具体吧。 简述一下整个系列的任务:(1)精选几个自己感兴趣的外文网站;(2)利用scrapy+redis框架实现几个网站的定时增量爬取;(3)定时基于自定义规则的新闻筛选;(4)文本预处理,并利用机器翻译模型对新闻进行翻译(5)定时对筛选后的新闻进行拼装整合(自然语言),加...原创 2018-07-21 16:12:44 · 2686 阅读 · 1 评论