环境:
python版本为3.7.0
Tesseract-OCR版本:
-
首先安装pytesseract、PIL
cmdpip install pytesseract pip install PIL
-
然后安装Tesseract-OCR
安装包
带DEV的是开发版本,不带dev的是稳定版本
安装的时候需要选择中文简体数据包
安装后在文件中有此文件chi_sim.traineddata
参考:
安装Tesseract-OCR
-
添加环境变量
-
使用
import pytesseract
import PIL
from PIL import Image
#中文需要添加lang="chi_sim"
print (pytesseract.image_to_string(Image.open('1.jpg'),lang="chi_sim"))
遇到一个坑爹的问题,图片高度小于20像素的居然识别不出来字符,坑啊。。。。。。
就这个图
########读取值
#check_code=pytesseract.image_to_string(Image.open('hr_pic_1.png'),lang='chi_sim')#中文
check_code=pytesseract.image_to_string(Image.open('hr_1119.png'),lang="eng+equ")#默认英文,eng+equ:英文字符+数学字符
print (check_code.replace(" ","").replace(" ","").replace("'","").replace(".",""))
图片的属性:
换一张:
emmmm。。。。不知道咋说,反正就很烦躁,搞的我卸载了几个版本的Tesseract-OCR…
然后我又丧(闲)心(得)病(无)狂(聊)的测试了其他像素的。。。。
以上得出结论,宽度>=80像素,高度>=20像素,才能识别字符。。。。