jTessBoxEditor2.3.1训练字库

最新推荐文章于 2024-05-07 14:26:39 发布

夜追命

最新推荐文章于 2024-05-07 14:26:39 发布

阅读量551

点赞数

分类专栏：图片文字识别字库训练 orc 文章标签： python pytorch

本文链接：https://blog.csdn.net/m0_37547159/article/details/114663638

版权

Tesseract是一个开源的OCR框架，可以实现图片的文字识别，对于正常的图片识别效率还是不错，不仅能识别英文，还能识别中文，不过需要自己下载字库。Tesseract和字库官网下载由于大家都知道都原因，太慢，太慢，太慢…而且还经常登不上。所以本编文章最后会把所有用到的资料打个包上传到csdn然后给大家一个链接。
Tesseract对于普通的文件的截图还有排版比较正常的图片识别效果正确率80%几，虽然不高，还可以凑合。但是对一些比较特别的图片，上面带很多图片，文字的字体，字号又比较特殊的基本上就识别不出来了。比如这一张在这里插入图片描述
我使用Tesseract进行识别一个都没有识别出来。
不过不要紧，我们可以使用jTessBoxEditor针对性的训练字库
jTessBoxEditor有两种训练方式，我们先来说第一种：
第一种训练方式加粗样式****
第一种训练方式相对简单，效果可能不太好，两种方式也可以一起使用
1、生成tif和box文件在这里插入图片描述
Output表示生成文件的位置，self表示字体库的前缀，和heiti.01共同组成生成的tif,和box文件名称。
点击Generate生成box和tif文件

注：tif文件命名格式需规范，格式为“[lang].[fontname].exp[num].tif”，lang为语言名称，fontname为字体名称，num为序号。
2、字符矫正
打开“Box Editor”页面

最低0.47元/天解锁文章

夜追命

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
jTessBoxEditor2.3.1训练字库

Tesseract是一个开源的OCR框架，可以实现图片的文字识别，对于正常的图片识别效率还是不错，不仅能识别英文，还能识别中文，不过需要自己下载字库。Tesseract和字库官网下载由于大家都知道都原因，太慢，太慢，太慢…而且还经常登不上。所以本编文章最后会把所有用到的资料打个包上传到csdn然后给大家一个链接。Tesseract对于普通的文件的截图还有排版比较正常的图片识别效果正确率80%几，虽然不高，还可以凑合。但是对一些比较特别的图片，上面带很多图片，文字的字体，字号又比较特殊的基本上就识别不出来了
复制链接

扫一扫