selenium爬取古诗文网login验证码!

本文介绍了如何利用selenium框架结合pytesseract库,进行古诗文网站的验证码识别。首先,安装必要的工具,包括selenium、pytesseract和PIL。接着,配置tesseract的路径,并通过selenium获取验证码图片。然后,对验证码进行定位、截图和灰度处理,最后利用pytesseract识别验证码内容。尽管成功率不高,但该方法模拟了真人操作流程。
摘要由CSDN通过智能技术生成

一、工具:
selenium框架
pytesseract
PIL : Image
selenium:webdriver

tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
安装默认地址:C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
找到tesseract.exe源文件
tesseract_cmd = ‘tesseract’
改成
tesseract_cmd = r’C:\Program Files (x86)\Tesseract-OCR\tesseract.exe’
使用方法参考地址:https://pypi.org/project/pytesseract/
二、分析过程:
cookie
在这里插入图片描述

获取账号密码input和登录按钮以及要的验证码图片
(1)通过id值获取账号标签,输一下值,看是否得到正确
(2)通过id值获取账号标签,输一下值,看是否得到正确
(3)通过id值获取验证码标签,输一下值,看是否得到正确
(4)通过id值获取验证码标签,输一下值,看是否得到正
在这里插入图片描述
完整代码:

import time
import pytesseract
from PIL import Image
from selenium import webdriver
from  time import sleep
#创建一个浏览器
browser = webdriver.Chrome()
def breakvcode():
    # 打开古诗文网
    browser.get("https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx"<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值