python爬虫之cookies与session配置

最新推荐文章于 2024-07-22 11:46:41 发布

andux

最新推荐文章于 2024-07-22 11:46:41 发布

阅读量756

点赞数

分类专栏：爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/andux/article/details/133948909

版权

爬虫专栏收录该内容

15 篇文章 0 订阅

订阅专栏

文章介绍了如何在Chrome浏览器中启用保留日志功能，以便抓取登录页面的数据，包括使用requests库发送POST请求，设置User-Agent和cookies，以及通过requests.session()方法获取登录后的页面信息。

摘要由CSDN通过智能技术生成

要从登陆页面获取相关数据，记得要用Chrome谷歌浏览器，其他浏览器可能布局有差别。

要打开谷歌浏览器的保留日志功能，这样登录信息会继续保留在列表里，点开链接可以查看载荷里的数据，即用户名密码等相关登录信息。

app.py

import requests

url = "https://api.cheshi.com/services/common/api.php?api=login.Login"
headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36 Core/1.94.201.400 QQBrowser/11.9.5325.400"
}
data = {
    "act": "login",
    "mobile": "手机号",
    "source": "pc",
    "password": "登录密码",
    "hold_time": "yes",
}

# res = requests.post(url=url, headers=headers, data=data)
# cookies = res.cookies
# admin_url = "https://my.cheshi.com/user/"
# admin_res = requests.get(url=admin_url, headers=headers, cookies=cookies)

# with open("./app.html", "w", encoding="utf-8") as f:
#     f.write(admin_res.text)

session = requests.session()
session.post(url=url, headers=headers, data=data)
admin_url = "https://my.cheshi.com/user/"
admin_res = session.get(url=admin_url, headers=headers)
print(admin_res.text)
with open("./app2.html", "w", encoding="utf-8") as f:
    f.write(admin_res.text)

可以只用cookies来进行操作，即被注释掉的代码：

res = requests.post(url=url, headers=headers, data=data)
cookies = res.cookies
admin_url = "https://my.cheshi.com/user/"
admin_res = requests.get(url=admin_url, headers=headers, cookies=cookies)

with open("./app.html", "w", encoding="utf-8") as f:
    f.write(admin_res.text)

使用request.session()比cookies代码要简洁一点点。最后都获取到了登录后的页面信息。

andux

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
python爬虫之cookies与session配置

要打开谷歌浏览器的保留日志功能，这样登录信息会继续保留在列表里，点开链接可以查看载荷里的数据，即用户名密码等相关登录信息。使用request.session()比cookies代码要简洁一点点。最后都获取到了登录后的页面信息。要从登陆页面获取相关数据，记得要用Chrome谷歌浏览器，其他浏览器可能布局有差别。
复制链接

扫一扫