selenium爬取古诗文网login验证码！

最新推荐文章于 2024-08-05 16:50:32 发布

打不死的搬砖小强！

最新推荐文章于 2024-08-05 16:50:32 发布

阅读量527

点赞数 1

文章标签： pycharm python selenium

本文链接：https://blog.csdn.net/luomuwuhuixue/article/details/104998592

版权

本文介绍了如何利用selenium框架结合pytesseract库，进行古诗文网站的验证码识别。首先，安装必要的工具，包括selenium、pytesseract和PIL。接着，配置tesseract的路径，并通过selenium获取验证码图片。然后，对验证码进行定位、截图和灰度处理，最后利用pytesseract识别验证码内容。尽管成功率不高，但该方法模拟了真人操作流程。

摘要由CSDN通过智能技术生成

一、工具：
selenium框架
pytesseract
PIL ： Image
selenium：webdriver

tesseract下载地址：http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
安装默认地址：C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
找到tesseract.exe源文件
tesseract_cmd = ‘tesseract’
改成
tesseract_cmd = r’C:\Program Files (x86)\Tesseract-OCR\tesseract.exe’
使用方法参考地址：https://pypi.org/project/pytesseract/
二、分析过程：
cookie
在这里插入图片描述

获取账号密码input和登录按钮以及要的验证码图片
（1）通过id值获取账号标签，输一下值，看是否得到正确
（2）通过id值获取账号标签，输一下值，看是否得到正确
（3）通过id值获取验证码标签，输一下值，看是否得到正确
（4）通过id值获取验证码标签，输一下值，看是否得到正
在这里插入图片描述
完整代码：

import time
import pytesseract
from PIL import Image
from selenium import webdriver
from  time import sleep
#创建一个浏览器
browser = webdriver.Chrome()
def breakvcode():
    # 打开古诗文网
    browser.get("https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx"<