-
环境准备
Tesseract-OCR(百度自行下载合适的版本,下载成功后将文件夹添加到环境变量中)
pillow模块(pip install pillow)
pytesseract模块(pip install pytesseract) -
代码实现
import pytesseract
from PIL import Image
def image_to_str(image_path):
# 使用路径导入图片
im = Image.open(image_path)
# 转化到灰度图
imgry = im.convert('L')
# 保存图像
imgry.save('gray-' + image_path)
# 二值化,采用阈值分割法,threshold为分割点
threshold = 140
table = []
for j in range(256):
if j < threshold:
table.append(0)
else:
table.append(1)
out = imgry.point(table, '1')
out.save('b' + image_path)
result = pytesseract.image_to_string(Image.open('b' + image_path), lang="eng", config="-psm 7")
return result
- 结语
函数可直接调用,返回验证码文字
只能识别简单的图形验证码,识别成功率经过测试大概在30%