1 下载
1.1 Tesseract-OCR 4.0版本下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w32-setup-v4.0.0-beta.1.20180608.exe
1.2 其他版本下载地址:
https://digi.bib.uni-mannheim.de/tesseract/
2安装
2.1 双击安装;
2.2 点击“运行”继续
2.3 点击“next”继续
2.4 选择下载包(在additional language data (download 下选择中数学公式库和中文库Chinese(simplified)(traditional)),点击“next”继续
2.5 选择安装路径(该演示文档里选择安装在C:\KFSofts\Tesseract-OCR目录下)
2.6 直接点击“install”,开始自动化安装,直到完成:
3环境配置
4.1 将Tesseract-OCR安装目录(C:\KFSofts\Tesseract-OCR)加入环境变量path中;
4.2 添加变量名TESSDATA_PREFIX 并赋值为C:\KFSofts\Tesseract-OCR\tessdata
4 简单使用
4.1 cmd命令使用
(命令格式:tesseract 目标图片 生成的box文件 语言包 makebox ):
比如:
C:/KFSofts/Tesseract-OCR/tesseract C:\Users\Administrator\Desktop\OCR\img\11.png C:\Users\Administrator\Desktop\OCR\img\resulit -l chi_sim makebox
######
4.2 python调用 PIL和pytesseract库,代码如下(该库都可以通过PIP安装):
###
from PIL import Image
import pytesseract
import os
def aaa():
path = "C:\\Users\\Administrator\\Desktop\\OCR\\img\\" #图片路径
path2 = "2.png"
text = pytesseract.image_to_string(Image.open(path+path2), lang="chi_sim")
print(text.replace(" ",''))
if __name__=="__main__":
aaa()
4.3有时候有需要修改***data\Lib\site-packages\pytesseract下的pytesseract.py)
5参考文档:https://www.cnblogs.com/wangkevin5626/p/9640165.html