Scrapy之通用爬虫（Broad Crawls）

最新推荐文章于 2023-10-12 21:23:11 发布

一介布衣+

最新推荐文章于 2023-10-12 21:23:11 发布

阅读量633

点赞数

分类专栏：技术栈文章标签： Broad Crawls

版权声明：本文为博主原创文章，遵循 CC 4.0 BY 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32662595/article/details/85233205

版权

技术栈专栏收录该内容

29 篇文章 0 订阅

订阅专栏

定义
能爬取大量(甚至是无限)的网站，仅仅受限于时间或其他的限制
特性
a 其爬取大量(一般来说是无限)的网站而不是特定的一些网站。
b 其不会将整个网站都爬取完毕，因为这十分不实际(或者说是不可能)完成的。相反，其会限制爬取的时间及数量。
c 其在逻辑上十分简单(相较于具有很多提取规则的复杂的spider)，数据会在另外的阶段进行后处理(post-processed)
d 其并行爬取大量网站以避免被某个网站的限制所限制爬取的速度(为表示尊重，每个站点爬取速度很慢但同时爬取很多站点)。
设定建议
增加并发：
并发是指同时处理的request的数量。其有全局限制和局部(每个网站)的限制。Scrapy默认的全局并发限制对同时爬取大量网站的情况并不适用，因此您需要增加这个值。增加多少取决于您的爬虫能占用多少CPU。一般开始可以设置为 100 。不过最好的方式是做一些测试，获得Scrapy进程占取CPU与并发数的关系。为了优化性能，您应该选择一个能使CPU占用率在80%-90%的并发数。
降低log级别
当进行通用爬取时，一般您所注意的仅仅是爬取的速率以及遇到的错误。 Scrapy使用 INFO log级别来报告这些信息。为了减少CPU使用率(及记录log存储的要求), 在生产环境中进行通用爬取时您不应该使用 DEBUG log级别。不过在开发的时候使用 DEBUG 应该还能接受。
禁止cookies
请禁止cookies。在进行通用爬取时cookies并不需要， (搜索引擎则忽略cookies)。禁止cookies能减少CPU使用率及Scrapy爬虫在内存中记录的踪迹，提高性能。
禁止重试
对失败的HTTP请求进行重试会减慢爬取的效率，尤其是当站点响应很慢(甚至失败)时，访问这样的站点会造成超时并重试多次。这是不必要的，同时也占用了爬虫爬取其他站点的能力。
减小下载超时
您对一个非常慢的连接进行爬取(一般对通用爬虫来说并不重要)，减小下载超时能让卡住的连接能被快速的放弃并解放处理其他站点的能力。
禁止重定向
您对跟进重定向感兴趣，否则请考虑关闭重定向。当进行通用爬取时，一般的做法是保存重定向的地址，并在之后的爬取进行解析。这保证了每批爬取的request数目在一定的数量，否则重定向循环可能会导致爬虫在某个站点耗费过多资源
启用 “Ajax Crawlable Pages” 爬取
有些站点(基于2013年的经验数据，之多有1%)声明其为 ajax crawlable 。这意味着该网站提供了原本只有ajax获取到的数据的纯HTML版本。网站通过两种方法声明:
在url中使用 #! - 这是默认的方式;
使用特殊的meta标签 - 这在”main”, “index” 页面中使用。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

一介布衣+ 做好事，当好人

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。