爬虫_cookie的处理

最新推荐文章于 2024-04-08 01:26:13 发布

学习使我快乐，才怪。

最新推荐文章于 2024-04-08 01:26:13 发布

阅读量206

点赞数

分类专栏：爬虫

原文链接：https://git-scm.com/book/en/v2

版权

爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

该博客介绍了如何使用Python的requests库手动获取和更新网站Cookies。通过设置User-Agent，建立session，读取并分割手动保存的Cookies文件，然后将这些Cookies应用于会话，并在请求目标网站后更新Cookies。最后，将新获取的Cookies写回文件，以便于后续使用。

摘要由CSDN通过智能技术生成

一、获取cookie

   手动获取：手工登录获取cookie，登录成功后可以不断更新cookie到文件中存储。参考：https://www.jianshu.com/p/5ef0c7bb1ed2

#导入requests包
import requests

targetURL = '目标网站地址'

#设置头UA
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

#开启一个session会话
session = requests.session()

#设置请求头信息
session.headers = headers

#申明一个用于存储手动cookies的字典
manual_cookies={}

##打开手动设置的cookies文件
#部分网站需要滑动验证，这里通过浏览器登录成功后获取cookies手动存到文本来绕过验证，后续cookies自动更新
with open("manual_cookies.txt",'r',encoding='utf-8') as frcookie:
    cookies_txt = frcookie.read().strip(';')  #读取文本内容
    #手动分割添加cookie
    for item in cookies_txt.split(';'):
        name,value=item.strip().split('=',1)  #用=号分割，分割1次
        manual_cookies[name]=value  #为字典cookies添加内容

#将字典转为CookieJar：
cookiesJar = requests.utils.cookiejar_from_dict(manual_cookies, cookiejar=None,overwrite=True)

#将cookiesJar赋值给会话
session.cookies=cookiesJar

#向目标网站发起请求
res = session.get(targetURL)

#将CookieJar转为字典：
res_cookies_dic = requests.utils.dict_from_cookiejar(res.cookies)

#将新的cookies信息更新到手动cookies字典
for k in res_cookies_dic.keys():
    manual_cookies[k] = res_cookies_dic[k]

print(manual_cookies)

#重新将新的cookies信息写回文本
res_manual_cookies_txt = ""

#将更新后的cookies写入到文本
for k in manual_cookies.keys():
    res_manual_cookies_txt += k+"="+manual_cookies[k]+";"

#将新的cookies写入到文本中更新原来的cookies
with open('manual_cookies.txt',"w",encoding="utf-8") as fwcookie:
    fwcookie.write(res_manual_cookies_txt);