本文主要利用tesseract识别网页登陆中的验证码(从图像的角度,不是Cookie)
很多人对CAPTCHA(验证码)很熟悉,但是很少有人知道其含义:全自动区分计算机和人类的图灵测试。通俗的讲就是是一种区分人和人工智能程序的方法。很多的网页都设置了验证码,常见的就是由“字母数字”组成的图片,如下:

本文的代码是利用selenium模拟浏览器的运行,识别登陆界面的验证码,分割验证码的区域然后识别验证码(光学字符识别)。
# -*- coding: utf-8 -*-
"""
Created on Sun Apr 26 17:42:23 2020
@author: dell
"""
import re # 用于正则
from PIL import Image # 用于打开图片和对图片处理
import tesserocr
import pytesseract # 用于图片转文字
from selenium import webdriver # 用于打开网站
import time # 代码运行停顿
import requests
def get_pictures():
try:
driver = webdriver.Chrome()
driver.get('https:XXXXXXXXXXXX/')
driver.refresh() #刷新页面
driver.maximize_window() #浏览器最大化
# time.sleep(10)

本文介绍如何通过Python的tesseract库来识别网页登录时的图像验证码,借助selenium模拟浏览器行为,处理验证码图像(灰度+二值化),尽管识别准确性可能因干扰因素而受影响,但多尝试可以提高命中率。
最低0.47元/天 解锁文章
886

被折叠的 条评论
为什么被折叠?



