Tesseract-OCR+jTessBoxEditor训练字库或图形验证码

最新推荐文章于 2023-11-29 21:44:21 发布

Mr.Shawn

最新推荐文章于 2023-11-29 21:44:21 发布

阅读量590

点赞数 1

分类专栏：爬虫系列（个人学习过程）文章标签：爬虫

本文链接：https://blog.csdn.net/shawn_fung/article/details/101531708

版权

本文介绍了如何安装和使用Tesseract-OCR及jTessBoxEditor来训练字库，特别是针对图形验证码的识别。首先安装tesserocr和配置环境变量，接着通过jTessBoxEditor合并图像并生成box文件，然后用Tesseract生成训练数据，并使用jTessBoxEditor手动校正识别错误。最后，创建字体特征文件并执行批处理生成traineddata文件，用于提升字符识别效果。

摘要由CSDN通过智能技术生成

安装

安装tesserocr.exe文件，配置环境变量
pip install tesserocr
安装java jdk 配置环境变量
jTessBoxEditor安装
具体安装参考网络资料

划重点!!!还要单独新建一个环境变量，最好两个都新建，用户的环境变量和系统环境变量
名字:TESSDATA_PREFIX
路径是:Tesseract-ORC下的tessData文件夹
检查是否安装成功:

cmd界面下:tesseract -v # 查看版本命令
查看语言库，tesseract --list-langs # 如果报错，请重新启动cmd，或者检查上面第三点是否做好了
语言库下载,官方在github可以下载
    https://github.com/tesseract-ocr/tessdata_best/tree/master/script

基本使用

import tesserocr
from PIL import Image

image = Image.open(r'1.png')
image = image.convert('L')  #转化为灰度图
threshold = 127             #设定的二值化阈值
table = []                  #table是设定的一个表，下面的for循环可以理解为一个规则，小于阈值的，就设定为0，大于阈值的，就设定为1
for i in range(256):
    if i < threshold:
        table.append(0)
    else:
        table.append(1)

image = image.point(table,'1&#