python-OCR识别图片字符

最新推荐文章于 2024-06-25 07:58:50 发布

Hetchine

最新推荐文章于 2024-06-25 07:58:50 发布

阅读量1.8k

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Hetchine/article/details/78487285

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、安装 pyocr , pip install pyocr

2、安装pil, pip install PIL

3、安装 tesseract-ocr http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe ，下载后直接默认安装

4、下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面 https://codeload.github.com/tesseract-ocr/tessdata/zip/master

下载jTessBoxEditor，这个是用来训练字库的，中文识别不太理想，进行文字训练后，效果会更好

#coding=utf8
from pyocr import pyocr
from PIL import Image
tools = pyocr.get_available_tools()[:]
a=tools[0].image_to_string(Image.open('E:\\11111\\1.jpg'),lang='chi_sim') #图片里的文字是"密码错误"
print a

识别的结果是 "舫码锺误"，识别效果不太理想，接下来我们来对她进行文字训练

将1.jpg名字修改为mjorcen.normal.exp0.jpg 名字由自己而定

讲mjorcen.normal.exp0.jpg转换位tig格式，注意不能只修改后缀名来转换，否则jTessBoxEditor打不开此文件

进入cmd，输入tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 -l chi_sim batch.nochop makebox生成box文件

打开train.bat,open mjorcen.normal.exp0.tif，矫正文字后，记得保存，保存后box文件就记录了矫正后的文字了

输入 tesseract mjorcen.normal.exp0.jpg mjorcen.normal.exp0 nobatch box.train

unicharset_extractor mjorcen.normal.exp0.box 开始训练

font_properties文件内容写入 normal 0 0 0 0 0 ，命令输入 echo normal 0 0 0 0 0 > normal_properties

运行 shapeclustering -F font_properties -U unicharset mjorcen.normal.exp0.tr

mftraining -F font_properties -U unicharset -O unicharset mjorcen.normal.exp0.tr

cntraining mjorcen.normal.exp0.tr

生成对应文件，最后会生成五个文件，把目录下的unicharset、inttemp、pffmtable、shapetable、normproto这五个文件前面都加上normal.

输入命令 combine_tessdata normal. 合并文件生成normal.traineddata文件，将它复制到Tesseract-OCR项目的tessdata文件夹里

运行程序

#coding=utf8
from pyocr import pyocr
from PIL import Image
tools = pyocr.get_available_tools()[:]
a=tools[0].image_to_string(Image.open('E:\\11111\\1.jpg'),lang='normal') #图片里的文字是"密码错误"
print a

lang选择训练后的语言normal

运行后成功识别为 "密码错误"

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python-OCR识别图片字符

1、安装 pyocr , pip install pyocr2、安装pil, pip install PIL3、安装 tesseract-ocr http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe ，下载后直接默认安装4、下载chi_sim.t
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。