比较方便使用的文字识别有两种,在这里县介绍第一种通过安装pytesseract就可以使用的方法。
首先是搭建好python环境和安装pycharm编码运行工具,这里不做赘述。
下载和安装pytesseract库
网址: https://digi.bib.uni-mannheim.de/tesseract/
可以下载较新的版本,下载安装到自己的目录就行,我安装的目录是D://Tesseract,安装比较新的版本还带有语言选择功能,安装过程中可以选择语言包(或者在下一步下载语言包配置)。
安装完后就需要在电脑上配置环境:我的电脑(右键)>>高级系统配置>>环境变量>>系统环境变量>>PATH(把pytesseract安装目录加上)。
下载安装语言包
pytesseract包含的没有中文,如果安装的时候没有安装中文,可以在这一步下载中文包安包然后配置。
网址: https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有两个,一个是简体chi_sim.traineddata,一个是繁体chi_tra.traineddata,一般是下载简体的,如果你需要的话都下载。
下载完后,放到安装目录的tessdata文件下即可。
还需要两个模块
pip install pytesseract
pip install pillow
最后一步
出现这个错误:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
那便是没有修改路径的问题。有了pycharm编辑器,可以直接点击pytesseract.py文件,找到源码中的tesseract = 'tesseract‘
将其改为自己的安装目录下的tesseract.exe,我的如下:
到这里,环境配置就完成了。
下面可以跑一下代码。
import pytesseract
from PIL import Image
# 读取图片
im = Image.open('1.png')
# 识别文字,并指定语言
string = pytesseract.image_to_string(im, lang='chi_sim')
print
print(string)
大功告成!!!
这里是引用,感谢大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940