本文将具体介绍如何在Python中利用Tesseract软件来识别验证码(数字加字母)。
我们在网上浏览网页或注册账号时,会经常遇到验证码(CAPTCHA),如下图:
本文将具体介绍如何利用Python的图像处理模块pillow和OCR模块pytesseract来识别上述验证码(数字加字母)。
Python资源共享群:484031800
我们识别上述验证码的算法过程如下:
- 将原图像进行灰度处理,转化为灰度图像;
- 获取图片中像素点数量最多的像素(此为图片背景),将该像素作为阈值进行二值化处理,将灰度图像转化为黑白图像(用来提高识别的准确率);
- 去掉黑白图像中的噪声,噪声定义为:以该点为中心的九宫格的黑点的数量小于等于4;
- 利用pytesseract模块识别,去掉识别结果中的特殊字符,获得识别结果。
我们的图片如下(共66张图片):
完整的Python代码如下:
import os import pytesseract from PIL import Image from collections import defaultdict # tesseract.exe所在的文件路径 pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe' # 获取图片中像素点数量最多的像素 def get_threshold(image): pixel_dict = defaultdict(int) # 像素及该像素出现次数的字典 rows, cols = image.size for i in range(rows): for j in range(cols): pixel = image.getpixel((i, j)) pixel_dict[pixel] += 1 count_max = max(pixel_dict.values()) # 获取像素出现出多的次数 pixel_dict_reverse = {v:k for k,v in pixel_di