Python3.7 pytesseract+PIL+Tesseract-OCR识别中文

最新推荐文章于 2023-03-23 02:05:20 发布

进击的小可爱

最新推荐文章于 2023-03-23 02:05:20 发布

阅读量1.6k

点赞数 1

分类专栏： python 文章标签： Python Tesseract-OCR

本文链接：https://blog.csdn.net/qq_40062513/article/details/103123386

版权

python 专栏收录该内容

6 篇文章 1 订阅

订阅专栏

环境：
python版本为3.7.0

Tesseract-OCR版本：
在这里插入图片描述

首先安装pytesseract、PIL
cmd

pip install pytesseract
pip install PIL

然后安装Tesseract-OCR
安装包
带DEV的是开发版本，不带dev的是稳定版本
安装的时候需要选择中文简体数据包
安装后在文件中有此文件chi_sim.traineddata
参考：
安装Tesseract-OCR
添加环境变量
使用

import pytesseract
import PIL
from PIL import Image
#中文需要添加lang="chi_sim"
print (pytesseract.image_to_string(Image.open('1.jpg'),lang="chi_sim"))

在这里插入图片描述
遇到一个坑爹的问题，图片高度小于20像素的居然识别不出来字符，坑啊。。。。。。

就这个图

########读取值
#check_code=pytesseract.image_to_string(Image.open('hr_pic_1.png'),lang='chi_sim')#中文
check_code=pytesseract.image_to_string(Image.open('hr_1119.png'),lang="eng+equ")#默认英文,eng+equ:英文字符+数学字符
print (check_code.replace(" ","").replace("  ","").replace("'","").replace(".",""))

图片的属性：
在这里插入图片描述
换一张：

emmmm。。。。不知道咋说，反正就很烦躁，搞的我卸载了几个版本的Tesseract-OCR…
然后我又丧（闲）心（得）病（无）狂（聊）的测试了其他像素的。。。。

以上得出结论，宽度>=80像素，高度>=20像素，才能识别字符。。。。

进击的小可爱

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
Python3.7 pytesseract+PIL+Tesseract-OCR识别中文

环境：python版本为3.7.0首先安装pytesseractcmdpip install pytesseract然后安装Tesseract-OCR，安装包https://digi.bib.uni-mannheim.de/tesseract/带DEV的是开发版本，不带dev的是稳定版本安装的时候需要选择中文简体数据包安装后在文件中有此文件chi_sim.traine...
复制链接

扫一扫

专栏目录