爬虫Scrapy
soon14
这个作者很懒,什么都没留下…
展开
-
使用scrapy进行大规模抓取(一)
使用scrapy有大概半年了,算是有些经验吧,在这里讨论一下使用scrapy作为爬虫进行大规模抓取可能遇到的问题。我们抓取的目标是教育网上的网站(目前主要针对.edu.cn和.cas.cn/.cass.cn域名),这半年里抓取了百万以上的url,其实百万url的规模不算大,我们一直在改进系统,还没有开始全量的抓取。 如果想了解scrapy的话,推荐pluskid的scrapy轻松定制网络爬虫转载 2014-11-05 16:53:11 · 974 阅读 · 0 评论 -
使用scrapy进行大规模抓取(二)
这是接着之前的(一)写的,上一篇里主要是写了一些解决性能问题的思路。时间过去快半年了,我们抓取的页面也不止百万了。我们在爬虫上也做了一些小改进,比如改善了链接提取器,(一)里提到的四个问题也都有不同程度的改进,但是还是有一些问题迟迟没能解决。 scrapy的问题 爬虫是一个很依赖于网络io的应用,单机的处理能力有限,很快就变成瓶颈。而scrapy并不是一个分布式的设计,在需要大规模爬取转载 2014-11-05 16:56:31 · 1052 阅读 · 0 评论