模拟登录1-古诗文网

最新推荐文章于 2023-03-14 00:04:18 发布

黑啤是真的皮

最新推荐文章于 2023-03-14 00:04:18 发布

阅读量609

点赞数 4

分类专栏：爬虫

本文链接：https://blog.csdn.net/qq_44111565/article/details/115287967

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

import requests
from lxml import etree
from PIL import Image
import pytesseract

url = 'https://so.gushiwen.cn/user/login.aspx'

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
}

def login():
    session = requests.Session()
    resonpse = session.get(url=url,headers=headers)
    tree = etree.HTML(resonpse.text)
    code_img_src = 'https://so.gushiwen.cn/' + tree.xpath('//*[@id="imgCode"]/@src')[0]
    viewstate = tree.xpath('//*[@id="__VIEWSTATE"]/@value')[0]
    img_data = session.get(url = code_img_src, headers = headers).content
    with open('img.jpg','wb') as f:
        f.write(img_data)

    image = Image.open('img.jpg')
    #需要将图片转为RGB格式
    image = image.convert('RGB')
    code = pytesseract.image_to_string(image)
    if(len(code) >= 4):
        code = code[:4]
        print('验证码为:'+ code)
        # 组织fromdata
        data = {
            '__VIEWSTATE' : viewstate,
            '__VIEWSTATEGENERATOR': 'C93BE1AE',
            'email': 'xxxx',
            'pwd': 'xxxx',
            'code': code,
            'denglu': '登录'
        }
        response = session.post(url=url,data=data)
        if(response.status_code == 200):
            print(len(response.text))
            tree = etree.HTML(response.text)
            login_flag = tree.xpath('//*[@id="html"]/body/div[2]/div[1]/span[1]')
            if(login_flag):
                print('登录成功！')
            else:
                print('login failed !')
                return login()
    else:
        print('识别失败，重新登录！')
        return login()


# 由于tesserate识别准确录太低,所以进行了多次识别，登录成功后才返回
if __name__ == '__main__': 
    login()

对于这种简单的字符验证码可以借助tesseract等orc来进行识别，虽然免费，但是识别准确率较低。

登录效果

AZ3S.
验证码为:AZ3S
13011
login failed !
PM28
验证码为:PM28
13853
登录成功！

对于这种简单的字符验证码分为以下几种情况

1.验证码的url不变，验证码也不变

这种情况最简单，直接解析出验证码的url,直接向验证码的url发起请求，保存验证码，然后进行识别

2. 验证码的url不变，验证码一直在变

这种情况在向目标网址发起请求时，实例化一个session,用session来维持会话，并用session来向验证码的url发起请求（本例就是此种形式）

3. 验证码的url后面加上随机参数，且验证码一直变

function reload() {
    var verifyObject = $('#code_img');
    verifyObject.attr('src',verifyObject.attr('src').split('?')[0]+'?'+Math.random());
}

原因：浏览器下使用GET发送请求时，如果两次请求的地址和参数相同，
在不刷新页面的情况下，浏览器会缓存第一次请求的内容，服务端更新后浏览器仍然显示第一次的内容。 


因此，GET请求URL后加随机数或者时间戳，让服务器认为不是相同的请求。进而加载不同的验证码。

此种方式按第一种方式处理

黑啤是真的皮

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
模拟登录1-古诗文网

import requestsfrom lxml import etreefrom PIL import Imageimport pytesseracturl = 'https://so.gushiwen.cn/user/login.aspx'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.438
复制链接

扫一扫

专栏目录