引言:如果使用post方法访问网页时,参数中需要输入动态验证码,我们该如何去获取呢?
目录
一、使用fiddler进行登录数据分析
- 打开fiddler。
- 点击被测网站的登录页面,但是先不登录,然后前往fiddler查看相应信息。
- 双击fiddler中跳出的相应登录页面网址,然后导航到Header-->SyntaxView,我们首先可以看到这是一个get请求,同时也能在下面内容中找到对应的token值,如下图。但是这是一个动态的值,意味着我们每次去登录,token值都会变化。
- 接下来就使用脚本去抓取这个值。
二、编写脚本
编写思路:
- 导入类库包:
- import requests
- from lxml import etree
- 定义url:url = "登录网址"
- 第三点也是最重要:要使用requests方法中的session保持方法,而不能直接使用get去获取响应结果
- 定义一个session = requests.session()
- 获取响应结果:response = session.get(url).text
- 把字符串类型的响应结果转化为DOM格式
- doc = etree.HTML(response)
- 用xpath方式抓取token,如上图所示
- token = doc.xpath('//meta[@name="csrf-token"]/@content')[0]
- 然后就可以将获取到的token传入到登录所需的参数中
- 登录时仍然要使用之前定义的session保持,否则就会视作再次访问,token值又会变化。
- login = session.post(url, data="参数")
- 之后如果要访问其他页面同样要使用session保持。
完整代码如下:
# 导入类库包 import requests from lxml import etree # 1、定义URL url = "xxxxxxxxxxxxxxxxxxxx" # 将requests请求使用session保持 session = requests.session() response = session.get(url).text # 把字符串类型的响应结果转化为DOM格式的 doc = etree.HTML(response) # 用xpath方式抓取token token = doc.xpath('//meta[@name="csrf-token"]/@content')[0] # print(token) # 把token值传入登录的参数中,进行登录 # 登录信息 userinfo = {"_csrf": token, "LoginForm[identity]": "xxxxxxx", "LoginForm[password]": "xxxxxxx", } # 使用session保持发送登录请求 result = session.post(url, data=userinfo) # 打开被测页面 testURL = "xxxxxxxxxxxxxxxxxxxxxxxxxx" # 发送请求,获取页面的内容 testresult = session.get(testURL).text