爬虫_cookie的处理

该博客介绍了如何使用Python的requests库手动获取和更新网站Cookies。通过设置User-Agent,建立session,读取并分割手动保存的Cookies文件,然后将这些Cookies应用于会话,并在请求目标网站后更新Cookies。最后,将新获取的Cookies写回文件,以便于后续使用。
摘要由CSDN通过智能技术生成

一、获取cookie

   手动获取:手工登录获取cookie,登录成功后可以不断更新cookie到文件中存储。参考:https://www.jianshu.com/p/5ef0c7bb1ed2
#导入requests包
import requests

targetURL = '目标网站地址'

#设置头UA
headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}

#开启一个session会话
session = requests.session()

#设置请求头信息
session.headers = headers

#申明一个用于存储手动cookies的字典
manual_cookies={}

##打开手动设置的cookies文件
#部分网站需要滑动验证,这里通过浏览器登录成功后获取cookies手动存到文本来绕过验证,后续cookies自动更新
with open("manual_cookies.txt",'r',encoding='utf-8') as frcookie:
    cookies_txt = frcookie.read().strip(';')  #读取文本内容
    #手动分割添加cookie
    for item in cookies_txt.split(';'):
        name,value=item.strip().split('=',1)  #用=号分割,分割1次
        manual_cookies[name]=value  #为字典cookies添加内容

#将字典转为CookieJar:
cookiesJar = requests.utils.cookiejar_from_dict(manual_cookies, cookiejar=None,overwrite=True)

#将cookiesJar赋值给会话
session.cookies=cookiesJar

#向目标网站发起请求
res = session.get(targetURL)

#将CookieJar转为字典:
res_cookies_dic = requests.utils.dict_from_cookiejar(res.cookies)

#将新的cookies信息更新到手动cookies字典
for k in res_cookies_dic.keys():
    manual_cookies[k] = res_cookies_dic[k]

print(manual_cookies)

#重新将新的cookies信息写回文本
res_manual_cookies_txt = ""

#将更新后的cookies写入到文本
for k in manual_cookies.keys():
    res_manual_cookies_txt += k+"="+manual_cookies[k]+";"

#将新的cookies写入到文本中更新原来的cookies
with open('manual_cookies.txt',"w",encoding="utf-8") as fwcookie:
    fwcookie.write(res_manual_cookies_txt);
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值