scrapy的cookie禁用以及自动限速

最新推荐文章于 2024-06-12 20:06:51 发布

桃桃桃桃桃桃”

最新推荐文章于 2024-06-12 20:06:51 发布

阅读量3.6k

点赞数

本文链接：https://blog.csdn.net/weixin_42260204/article/details/81096459

版权

cookie的禁用：

在爬取不需要登入的页面是，cookie可能会成为网站检测爬虫的途径之一，所以一般会把cookie禁用，防止被反爬；

禁用方法：在setting.py中，将COOKIES_ENABLED设定为False；

而在爬取需要登入的页面是，cookie往往是发送登录信息的一种手段，所以可以在spider的py文件中重载custom_settings：

custom_settings = {
        "COOKIES_ENABLED": True，
    }

在custom_settings中，也可以重载其他spider setting。

自动限速：

爬虫爬取速度过快，会对网站服务器造成很大的压力，因此很容易会被判断为爬虫，自动限速可以限制爬虫的速度，对网站服务器更友好，并且不容易被反爬。

自动限速设定：

在setting.py开启相关扩展：

AUTOTHROTTLE_ENABLED = True

设定爬取速度：

DOWNLOAD_DELAY = 1  #单位为秒

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注