1.安装
在GitHub上搜索下载tesseract-ocr-setup-4.00.00dev.exe安装文件
双击安装,一路next>>,需注意要选择语言包,math,english必选,chinese-simple或其他语言包随意
2.配置环境变量
在电脑--属性--高级系统设置--环境变量--系统变量--Path--(加入包含tesseract.exe的目录)
出现TesseractNotFound错误可能是这个原因导致
3.更改pytesseract.py文件配置
这个修改在pycharm中比较方便,按住ctrl键,点击需查看源码的方法,即可调出源码。
用image_to_string()方法调出源码,将tesseract_cmd=‘tesseract.exe’的路径改成tesseract.exe文件的绝对路径,反斜杠需要在前面加r,正斜杠也可。
重新定义一个变量config_string=‘--tessdata-dir "C:\\Program Files (x86)\\Tesseract-OCR\\tessdata"’
找到三个方法:image_to_string()
run_tesseract()
run_and_get_output()
将里面的config=‘’改成config=config_string