(转)Python爬虫理论之cookie验证,不回顾下历史,套路都不知道怎么来的!_junior5的专栏-CSDN博客

cookie在发明之初,为了帮助服务器同步网页上的用户信息,同时保存用户操作,以此减轻服务器压力。

没有cookie之前,人们还停留在像电视一样只能对网页进行点播,网站分辨不出是谁在通信。

题外话:第一代密码,属于通用性的密钥

有了cookie后,你就那个网页做交互了,这时才有了网站账号。

由正在浏览的网站创建的cookie被称为第一方cookie。

在这里插入图片描述

这个东西很重要,你要是不信邪,把这种第一方cookie给禁止了,

在这里插入图片描述

那么,恭喜你,回到了广播时代。

Python requests库默认是打开了cookie的。

– 检查cookie

import requests
from requests.cookies import RequestsCookieJar

headers = {
    'Host': 'accounts.douban.com',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Connection': 'keep-alive'
           }
request_url = "https://accounts.douban.com/passport/login"
res = requests.get(request_url, headers=headers)

status_code = res.status_code
res_header = res.headers
res_cookies = res.cookies
cookie1111 = res.cookies.get_dict()                             # 格式化 字典形式输出
cookie2222 = requests.utils.dict_from_cookiejar(res_cookies)    # 格式化 字典形式输出
for cookie in res_cookies:
    print(cookie.name+"\t"+cookie.value)

print("响应状态码:", status_code)
print("响应请求请求头:", res_header)
print("响应cookies:", res_cookies)
print("格式化cookie1111 :", cookie1111)
print("格式化cookie2222 :", cookie2222)

– 到这里自带cookie说明白了!

接下来,我们引入一个概念 第三方cookie,

使用空浏览器来看下效果。

清除浏览器cookie记录,也可以进行模拟。
在这里插入图片描述

进入一个网站csdn.net,

然后点击网页地址栏左侧的那个小锁就能看到这些信息。

在这里插入图片描述

正在访问的csdn.net以外

还有来自其它40个cookie,这些在你访问的网址之外的域名,创建的cookie就被称作,作为第三方cookie。

在这里插入图片描述

这些第三方cookie怎么来的呢?他们又有什么作用了。

你通过进入csdn.com,这个网站就访问了baidu.com的服务器了。

咱们按下F12进入浏览器的开发者模式中,观察一下网络结构。
在这里插入图片描述

仔细查看一下这个网站的加载,我们可以在它的目录中发现baidu.com来源,他使用了baidu.com提供的功能,编写进了自己的网站代码中。

– 我们在访问这个网站的过程中,也同时使用了百度为你提供的服务,那么这个服务是什么呢?


# 不得不提cookie的另外一个作用! ## 除了可以绑定网页和用户的身份,还可以记录网页的浏览历史。 ### 这样就给 广告提供商 机会,使用不同的代码模块,嵌入到不同的网站中,以此实行产品推荐。 ### 第三方cookie,它默默的,把你的喜好记录下来,在你进入其他网站时,再通过读取之前已经记录好的信息,这样就能对你进行个性化广告推荐。

禁用第三方cookie是不是就没有广告了?

这也是爬虫遇到最多的情况。

手动模拟一下,禁用第三方cookie,会发现 验证码 输入次数开始变得频繁了。

在这里插入图片描述

鉴于此,爬虫产生了另外一个工具selenium。

在这里插入图片描述

写在最后

1.了解历史,有助于,我们更好的定位问题。

2.很多博主只告诉你们,第二次爬去的时候需要携带cookie,对第三方cookie只字不提

import requests

cookies="从网上复制的cookie值"

cookies_dict={}

for i in cookies.split("; "):

   cookies_dict[i.splict('=')[0]] = i.splict('=')[1]

html=requests.get(url='',cookies=cookies_dict}

3.更高级的工具,学习,使用。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值