安装
- 安装tesserocr.exe文件,配置环境变量
- pip install tesserocr
- 安装java jdk 配置环境变量
- jTessBoxEditor安装
具体安装参考网络资料
划重点!!!还要单独新建一个环境变量,最好两个都新建,用户的环境变量和系统环境变量
名字:TESSDATA_PREFIX
路径是:Tesseract-ORC下的tessData文件夹
检查是否安装成功:
cmd界面下:tesseract -v # 查看版本命令
查看语言库,tesseract --list-langs # 如果报错,请重新启动cmd,或者检查上面第三点是否做好了
语言库下载,官方在github可以下载
https://github.com/tesseract-ocr/tessdata_best/tree/master/script
基本使用
import tesserocr
from PIL import Image
image = Image.open(r'1.png')
image = image.convert('L') #转化为灰度图
threshold = 127 #设定的二值化阈值
table = [] #table是设定的一个表,下面的for循环可以理解为一个规则,小于阈值的,就设定为0,大于阈值的,就设定为1
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table,'1&#