requests 200 scrapy超时_云立方丨提升scrapy的抓取效率方法有哪些

最新推荐文章于 2021-12-17 17:06:41 发布

weixin_39569051

最新推荐文章于 2021-12-17 17:06:41 发布

阅读量78

点赞数

文章标签： requests 200 scrapy超时

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39569051/article/details/111607655

版权

爬虫也就是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛，这时候如果把互联网看成是一张大网来的话，那么爬虫就是在大网上爬来爬去的蜘蛛，根据想要的东西，就将它提取出来。

通常爬虫是从某个网站的某个页面开始的，爬取这个页面的内容，找到页面中的其他的链接地址，然后从这个地址爬到下一个页面，这样一直不停的爬下去，就可以做到批量的信息的抓取，那么我们就可以将网络爬虫看成是一个不同爬取网页提取网页信息的程序。

取效率提升方法：
增加并发
默认scrapy开启的并发线程的个数是32个，可以适当的进行增加。在settings中进行设置CONCURRENT_REQUESTS=100
禁止cookie
如果不是真的需要cookie的话，可以在scrapy爬取的时候禁止cookie从而来减少CPU的使用率，提升爬取的效率，COOKIES_ENABLED=False
降低日志级别
在运行的时候，会有大量的日志信息的输出，为了减少CPU的使用率。可以设置log输出的信息是INFO或者是ERROR就可以了LOG_LEVEL=‘INFO’
禁止重试
对失败的HTTP进行重新的请求(重试)会减慢爬取的速度，因此可以禁止重试RETRY_ENABLED=False
减少下载超时
如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速的被放弃，从而来提升效率DOWNLOAD_TIMEOUT=10

关于其他爬虫问题，可以直接访问云立方网查询哦。

weixin_39569051

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests 200 scrapy超时_云立方丨提升scrapy的抓取效率方法有哪些

爬虫也就是网络爬虫(Web Spider)。翻译过来就是在网络上爬行的蜘蛛，这时候如果把互联网看成是一张大网来的话，那么爬虫就是在大网上爬来爬去的蜘蛛，根据想要的东西，就将它提取出来。通常爬虫是从某个网站的某个页面开始的，爬取这个页面的内容，找到页面中的其他的链接地址，然后从这个地址爬到下一个页面，这样一直不停的爬下去，就可以做到批量的信息的抓取，那么我们就可以将网络爬虫看成是一个不同爬取网页提取...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。