Python爬虫倒立文字验证码登录知乎

最新推荐文章于 2024-07-14 20:36:58 发布

milletluo

最新推荐文章于 2024-07-14 20:36:58 发布

阅读量3k

点赞数 2

分类专栏： Python 文章标签： python 验证码爬虫

本文链接：https://blog.csdn.net/lm409/article/details/78446104

版权

Python 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

引言

本文解析了知乎倒立文字验证码的原理，人工识别倒立文字所在位置后组织报文成功登录。

原理

关于登录的基本原理可参考Python爬虫之模拟知乎登录，只不过这篇文章中登录的验证码为“数字英文”模式，而当前登录时是“点击倒立文字”模式，所以主要记录这部分。
先故意选错验证码，如图，选中第三个和第五个汉字，点击登录
这里写图片描述
在开发者模式中观察浏览器是如何发送请求的

如图所示captcha即为验证码信息：其中”img_size”字段每次都是[200,44]，应该表示图片大小。后面的”input_points”是你点击验证码中倒立文字的坐标，服务端应该是判断输入的坐标在匹配的一定范围内即判断验证码正确。

由于验证码中七个文字位置是固定的，只需要提前确定每个字所在坐标并放入列表中，然后人工确定倒立文字的文字序号，将列表中序号对应的坐标加入input_points字段。

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)中获取了这七个文字坐标依次如下：[22.796875,22],[42.796875,22],[63.796875,21],[84.796875,20],[107.796875,20],[129.796875,22],[150.796875,22]。

代码

# encoding: utf-8
# !/usr/bin/env python

import time
from http import cookiejar
import json
import requests
from bs4 import BeautifulSoup

headers = {
    "Host": "www.zhihu.com",
    "Referer": "https://www.zhihu.com/",
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}




# 使用登录cookie信息
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
    print(session.cookies)
    session.cookies.load(ignore_discard=True)

except:
    print("还没有cookie信息")


def get_xsrf():
    response = session.get("https://www.zhihu.com", headers=headers, verify=False)
    soup = BeautifulSoup(response.content, "html.parser")
    xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
    return xsrf


def get_captcha():
    """
    把验证码图片保存到当前目录，手动识别验证码
    """
    t = str(int(time.time() * 1000))#验证码是按时间戳命名
    captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login&lang=cn"
    print(captcha_url)
    r = session.get(captcha_url, headers=headers)
    with open('captcha.gif', 'wb') as f:
        f.write(r.content)
        f.close()

    # 自动打开刚获取的验证码
    from PIL import Image
    try:
        img = Image.open('captcha.gif')
        img.show()
        img.close()
    except:
        pass

    captcha = {
        'img_size': [200, 44],
        'input_points': [],
    }
    points = [[22.796875, 22], [42.796875, 22], [63.796875, 21], [84.796875, 20], [107.796875, 20],
              [129.796875, 22], [150.796875, 22]]
    seq = input('请输入倒立字的位置\n>')
    for i in seq:
        captcha['input_points'].append(points[int(i) - 1])
    return json.dumps(captcha)


def login(email, password):
    login_url = 'https://www.zhihu.com/login/email'
    data = {
        'email': email,
        'password': password,
        '_xsrf': get_xsrf(),
        "captcha": get_captcha(),
        'captcha_type': 'cn',}
    print(session.cookies)
    response = session.post(login_url, data=data, headers=headers)
    login_code = response.json()
    print(login_code['msg'])
    print(session.cookies)
    r = session.get("https://www.zhihu.com/settings/profile", headers=headers)
    print(r.status_code)
    print(r.text)
    with open("xx.html", "wb") as f:
        f.write(r.content)


if __name__ == '__main__':
    email = "xxxxxx"
    password = "xxxxxx"
    login(email, password)