关于如何获取动态cookies的爬取策略

当我们爬取一些网站时,经常会遇到爬取时需要添加cookies,来判断你是否为游客登录还是用户登录。此时的cookies中还带有关于时间的参数,只要超过规定时间,爬取过程中就会报错,爬虫工程师只能通过加解密js的方式来进行操作。但是对于刚入手的小白来说,动态cookies着实有点难搞,那么有没有更加简便的的方法来获取动态的cookies呢?

在遇到此类问题,我们可以通过一个自动化的模块DrissionPage来获取到动态cookies来为我们的爬虫服务。DrissionPage时结合selenium和中间人代理攻击的一个关于python的第三方模块,如果你熟悉selenium那么DrissionPage就可以很快速的上手。

思路:使用DrissionPage通过获取用户浏览器的缓存数据,来访问用户已经登陆的网站信息返回动态的cookies的值,通过此cookies结合requests或scrapy来访问网页的数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值