python初试——模拟登陆

最新推荐文章于 2024-03-27 22:57:21 发布

is卓文迪

最新推荐文章于 2024-03-27 22:57:21 发布

阅读量503

点赞数

分类专栏： python 文章标签： python requests 模拟登陆

本文链接：https://blog.csdn.net/Mr_shashadudu/article/details/78450219

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

许多网页必须先登录再抓取信息，也遇到了一个网站抓取不到内容，但在模拟登陆之后就抓到了内容。一开始模拟登陆也踩了坑，所以在这里以模拟登陆泰晤士报为例。

这里采用requests和lxml实现模拟登陆

1. 引入requests

这里写图片描述

2. 查看网页登录的请求内容

（可以使用错误的用户名密码登录，方便找到post）由此可见实际的请求url为https://login.thetimes.co.uk/

这里写图片描述
我们可以看到请求数据中包含【gotoUrl、s、username、password、rememberMe、Submit】这几部分内容，所以可以将这些写进我们的请求中

values = {'gotoUrl': 'https%3A%2F%2Fwww.thetimes.co.uk%2F', 's': '1', 'username': '*****', 'password': '******', 'rememberMe': 'on', 'Submit': 'Login'}

3.请求代码

URL_login= r'https://login.thetimes.co.uk/'
s = requests.session()
f= s.post(URL_login,data=values,headers = headers)

使用requests的session方法登录，将url、values、headers写入。（默认头部是带有python的，可能会被网站识别为爬虫而遭拒绝，所以可以自己传入头部，比如自己使用的浏览器）

url = 'https://www.thetimes.co.uk'
html = s.get(url,headers = headers).content
root = etree.HTML(html.decode('utf-8','ignore'))

之后就可以使用请求成功之后的session进入网站抓取所需的内容。具体代码可参考我的github

is卓文迪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python初试——模拟登陆

Python初试——模拟登陆许多网页必须先登录再抓取信息，也遇到了一个网站抓取不到内容，但在模拟登陆之后就抓到了内容。一开始模拟登陆也踩了坑，所以在这里以模拟登陆泰晤士报为例。这里采用requests和lxml实现模拟登陆1. 引入requests2. 查看网页登录的请求内容（可以使用错误的用户名密码登录，方便找到post）由此可见实际的请求url为https://login.thetimes.
复制链接

扫一扫

专栏目录