从头学习爬虫(六) 进阶篇----cookie

本文主要介绍下cookie的作用:

用于传输部分验证参数以及类似get、post的请求参数,常用于反爬策略验证用户信息。


实战分析:

1、用于分页page、经纬度。。。参数传递


其他参数就不解析比较复杂,很明显我所在地区是杭州, __mta所对应经纬度信息,如果更换可能返回信息就更换了。

这样好处主要是为了隐藏信息,区别与get、post请求。

2、作为用户登入后信息存储

常见我们通常登入后使用cookie,进行后续页面爬取,这样可以不用模拟登入,更为方便。

3、cookie时效性

有时候我们用已保存的cookie进行爬取,但是当下一次爬取就失败,很有可能就是因为cookie失效了,从而要重新去获取cookie,这样不适用与实际生产,所以后续我还是要通过模拟登入获取新鲜的cookie,这样更通用。

4、session

赤狐为例,通常我们可以从cookie里面看到jsessionid这个参数通常用于记录session。

所以经常我们会遇到关闭浏览器或者一段时间,然后这个值变化导致请求失败。

形象的描述下,类似于自助餐厅门票,当我们出门或者过了时间段,就要重新买票了。

而且我们要保证这后续爬取正常,这个session要保持一致不能关闭。

比如我们可能犯的错误把session关闭或者一段时间后还是拿着被废弃的门票想去吃霸王餐

当然不会认可你。

还有个类似的token基本类似不再重复了。


重点:总有人问为什么浏览器访问一个网页总是带cookie,但是我没有登入啊,而且我写请求没这个参数不可以啊,因此我画一张图,看看就好了。


一般做1-3次请求就可以成功了。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值