Python爬虫倒立文字验证码登录知乎

引言

本文解析了知乎倒立文字验证码的原理,人工识别倒立文字所在位置后组织报文成功登录。

原理

关于登录的基本原理可参考Python爬虫之模拟知乎登录,只不过这篇文章中登录的验证码为“数字英文”模式,而当前登录时是“点击倒立文字”模式,所以主要记录这部分。
先故意选错验证码,如图,选中第三个和第五个汉字,点击登录
这里写图片描述
在开发者模式中观察浏览器是如何发送请求的
这里写图片描述
如图所示captcha即为验证码信息:其中”img_size”字段每次都是[200,44],应该表示图片大小。后面的”input_points”是你点击验证码中倒立文字的坐标,服务端应该是判断输入的坐标在匹配的一定范围内即判断验证码正确。

由于验证码中七个文字位置是固定的,只需要提前确定每个字所在坐标并放入列表中,然后人工确定倒立文字的文字序号,将列表中序号对应的坐标加入input_points字段。

python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)中获取了这七个文字坐标依次如下:[22.796875,22],[42.796875,22],[63.796875,21],[84.796875,20],[107.796875,20],[129.796875,22],[150.796875,22]。

代码

# encoding: utf-8
# !/usr/bin/env python

import time
from http import cookiejar
import json
import requests
from bs4 import BeautifulSoup

headers = {
    "Host": "www.zhihu.com",
    "Referer": "https://www.zhihu.com/",
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36'
}




# 使用登录cookie信息
session = requests.session()
session.cookies = cookiejar.LWPCookieJar(filename='cookies.txt')
try:
    print(session.cookies)
    session.cookies.load(ignore_discard=True)

except:
    print("还没有cookie信息")


def get_xsrf():
    response = session.get("https://www.zhihu.com", headers=headers, verify=False)
    soup = BeautifulSoup(response.content, "html.parser")
    xsrf = soup.find('input', attrs={"name": "_xsrf"}).get("value")
    return xsrf


def get_captcha():
    """
    把验证码图片保存到当前目录,手动识别验证码
    """
    t = str(int(time.time() * 1000))#验证码是按时间戳命名
    captcha_url = 'https://www.zhihu.com/captcha.gif?r=' + t + "&type=login&lang=cn"
    print(captcha_url)
    r = session.get(captcha_url, headers=headers)
    with open('captcha.gif', 'wb') as f:
        f.write(r.content)
        f.close()

    # 自动打开刚获取的验证码
    from PIL import Image
    try:
        img = Image.open('captcha.gif')
        img.show()
        img.close()
    except:
        pass

    captcha = {
        'img_size': [200, 44],
        'input_points': [],
    }
    points = [[22.796875, 22], [42.796875, 22], [63.796875, 21], [84.796875, 20], [107.796875, 20],
              [129.796875, 22], [150.796875, 22]]
    seq = input('请输入倒立字的位置\n>')
    for i in seq:
        captcha['input_points'].append(points[int(i) - 1])
    return json.dumps(captcha)


def login(email, password):
    login_url = 'https://www.zhihu.com/login/email'
    data = {
        'email': email,
        'password': password,
        '_xsrf': get_xsrf(),
        "captcha": get_captcha(),
        'captcha_type': 'cn',}
    print(session.cookies)
    response = session.post(login_url, data=data, headers=headers)
    login_code = response.json()
    print(login_code['msg'])
    print(session.cookies)
    r = session.get("https://www.zhihu.com/settings/profile", headers=headers)
    print(r.status_code)
    print(r.text)
    with open("xx.html", "wb") as f:
        f.write(r.content)


if __name__ == '__main__':
    email = "xxxxxx"
    password = "xxxxxx"
    login(email, password)

效果如下:
这里写图片描述

参考

Python爬虫之模拟知乎登录
python爬虫scrapy框架——人工识别登录知乎倒立文字验证码和数字英文验证码(1)

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值