一、工具:
selenium框架
pytesseract
PIL : Image
selenium:webdriver
tesseract下载地址:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe
安装默认地址:C:\Program Files (x86)\Tesseract-OCR\tesseract.exe
找到tesseract.exe源文件
tesseract_cmd = ‘tesseract’
改成
tesseract_cmd = r’C:\Program Files (x86)\Tesseract-OCR\tesseract.exe’
使用方法参考地址:https://pypi.org/project/pytesseract/
二、分析过程:
cookie
获取账号密码input和登录按钮以及要的验证码图片
(1)通过id值获取账号标签,输一下值,看是否得到正确
(2)通过id值获取账号标签,输一下值,看是否得到正确
(3)通过id值获取验证码标签,输一下值,看是否得到正确
(4)通过id值获取验证码标签,输一下值,看是否得到正
完整代码:
import time
import pytesseract
from PIL import Image
from selenium import webdriver
from time import sleep
#创建一个浏览器
browser = webdriver.Chrome()
def breakvcode():
# 打开古诗文网
browser.get("https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx"<