Scrapy手动增加Add Cookie和关掉重复过滤器dupfilters

最新推荐文章于 2022-09-29 14:45:36 发布

糊糊

最新推荐文章于 2022-09-29 14:45:36 发布

阅读量5.8k

点赞数 2

分类专栏： Python 文章标签： scrapy cookie dupfilter addcookie

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huyoo/article/details/75570668

版权

本文介绍了在Scrapy中如何手动添加Cookie，特别是在js设置的cookie无法自动携带到请求时的解决方法，并讨论了关闭重复过滤器（dupfilters）的尝试和解决方案。

摘要由CSDN通过智能技术生成

Scrapy 本身是能够处理Cookie的, 工作原理和浏览器类似

浏览器发送请求
服务器返回响应, 并使用Set-Cookie来要求浏览器再下一次的请求中, 带上Cookie
下一次请求, 浏览器在请求头中使用Cookie带上上一次服务器要求设置的Cookie

整个流程无需人工干预, 由浏览器自动完成.

在Scrapy中, 这个也是无需干预的, 其功能在CookieMiddleware中自动完成

使用的方法就是:

1. settings.py中打开开关

COOKIES_ENABLED=True
COOKIES_DEBUG=True #这个是在log中能看到每次请求发出了和接收到什么Cookie

2. 运行你的爬虫即可

那么, 问题来了, 怎么手动带上额外的Cookie呢?

翻了很多文档和源码, 特总结如下

带上Cookie, 一定是在Request上操作的, 所以, 不要去翻Response的源码了.
Request有2个方法
1) Request, FormRequest
2) response.follow(…) #这个执行完了, 会返回一个Request对象

3. 为什么会要手动添加一个Cookie

答案就是现在的网页很多都用js来给document添加cookie
比如document.cookie=’person=zhouxingchi’;
这个在网页上, 由js添加的cookie, 再下一次请求的时候, 如果使用浏览器, 是可以带到下一个请求中的.

但是在scrapy里, 因为获取的是源码, 故js无法执行, 所以, 要求开发人员手动为下一个请求添加上该cookie.

最低0.47元/天解锁文章

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。