session 模拟登陆
推荐我的个人博客: blog.wuzhenyu.com.cn
大家知道,登陆知乎需要验证码,那么如何通过 session 来模拟登陆知乎呢。首先通过分析知乎登陆请求, 如下图所示
上图中标注的部分就是我们需要模拟的请求,也就是说,我们使用 session 登陆的时候,首先需要构造我们的请求头部 header。
在上图中,有一个 x-xsrftoken
字段,这个字段是知乎登陆请求中必须有的字段,那么这个字段是如何获取的呢,在我们打开知乎登陆页面的时候,查看网页源代码,在这个里面,我们就能获取到这个信息,如下图所示
这是一个隐藏的标签,在页面上是不会显示的。(这种手法,有点类似于,当关闭浏览器 cookie 功能的时候,服务器传递 session_id
,也可以采用这种做法,发送一个隐藏的标签,保存 session_id
),那么,获取这个 xsrf token
就变得非常简单了,首先获取登录页面,然后通过正则表达式获取这个值,代码如下所示:
def get_xsrf_token():
response = session.get("https://www.zhihu.com", headers=header) # 这个参数必须是 headers
match_obj = re.search('.*name="_xsrf" value="(.*?)"', response.text) # match vs search
if match_obj:
return match_obj.group(1)
else:
return ""
大家可能发现,在上面的代码中,我已经使用到了 header,我构造的 header 如下
agent = "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:54.0) Gecko/20100101 Firefox/54.0"
header = {
"Host": "www.zhihu.com",
"Referer": "https://www.zhihu.com/",
"Upgrade-Insecure-Requests": "1",
"User-Agent": agent
}
注意,上面的代码的正则表达式部分,使用的是 search,不是 match,match 可能匹配不了正确的结果,不明之处可以查看 python documentation 中的 match vs search
的部分
既然 header 和 xsrf_token
都已经获取到了,那我们试着使用 session 来模拟登陆一下,在登录之前,我们需要构造 post_data
发送用户名和密码进行登录
def zhihu_login(account, password):
"""
模拟知乎登录
"""
post_data = {}
post_url = ""
if re.match("^1\d{10}", account): # 手机号码
print("phone login")
post_url = "https://www.zhihu.com/login/phone_num"
post_data = {
"_xsrf": get_xsrf_token(),
"phone_num": account,
"password": password
}
print(header)
print(post_data)
else:
if "@" in account:
print("email lo