python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

最新推荐文章于 2024-03-21 22:37:35 发布

VIP文章 weixin_39818550

最新推荐文章于 2024-03-21 22:37:35 发布

阅读量1.9k

点赞数

文章标签： python文字识别训练

Python3.x：pytesseract识别率提高(样本训练)

1，下载并安装3.05版本的tesseract

2，如果你的训练素材是很多张非tif格式的图片，首先要做的事情就是将这么图片合并(个人觉得素材越多，基本每个字母和数字都覆盖了训练出来的识别率比较好)

下载这个工具：VietOCR.NET-3.3.zip

首先进行jpg,gif,bmp到tif的转换，这个用自带的画图就可以。然后使用VietOCR.NET-3.3进行多张 tif的merge。

3，Make Box Files。在orderNo.tif所在的目录下打开一个命令行，输入

C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 batch.nochop makebox

4，使用jTessBoxEditor打开orderNo.tif文件，需要记住的是第2步生成的orderNo.box要和这个orderNo.tif文件同在一个目录下。逐个校正文字，后保存。

下载jTessBoxEditor工具进行每个自的纠正(注意有nextpage逐页进行纠正)

5，Run Tesseract for Training。输入命令：

C:\Program Files\Tesseract-OCR>tesseract.exe lang.jhy.exp8.TIF lang.jhy.exp8 nob

atch box.train

6，Compute the Character Set。输入命令：

C:\Program Files\Tesseract-OCR>unicharset_extra

最低0.47元/天解锁文章

weixin_39818550

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python文字识别训练_Python3.x：pytesseract识别率提高（样本训练）

Python3.x：pytesseract识别率提高(样本训练)1，下载并安装3.05版本的tesseract2，如果你的训练素材是很多张非tif格式的图片，首先要做的事情就是将这么图片合并(个人觉得素材越多，基本每个字母和数字都覆盖了训练出来的识别率比较好)下载这个工具：VietOCR.NET-3.3.zip首先进行jpg,gif,bmp到tif的转换，这个用自带的画图就可以。然后使用VietO...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。