tesseract-OCR字库训练

最新推荐文章于 2023-04-19 14:03:27 发布

VIP文章钰061

最新推荐文章于 2023-04-19 14:03:27 发布

阅读量1k

点赞数 1

分类专栏： tesseract c++ 文章标签： tesseract 字库训练 c

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lly_117/article/details/71617767

版权

一、准备工作

1、下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。

2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面。

3、下载jTessBoxEditor，这个是用来训练字库的。

下载地址为：http://download.csdn.net/detail/lly_117/9839229里面自带Java运行库，安装配置Java环境后，双击打开 jTessBoxEditor.jar。

4、Tesseract-OCR引擎环境配置，将E:\Program Files (x86)\Tesseract-OCR;配置环境变量path中。

二、训练

1、将图片转换成tif格式，用于后面生成box文件，通过画图，另存为tif格式。

    更改图片名字：tif文面命名格式[lang].[fontname].exp[num].tif
    lang是语言 fontname是字体
    比如我们要训练自定义字库 mjorcen字体名me
    那么我们把图片文件重命名 mjorcen.me.exp0.jpg在转tif。

2、生成box文件

在改文件中输入下面的命令行

tesseract mjorcen.me.exp0.jpg mjorcen.me.exp0 batch.nochop makebox

生成

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tesseract-OCR字库训练

一、准备工作1、下载Tesseract-OCR引擎，注意要3.0以上才支持中文哦，按照提示安装就行。2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后，放到Tesseract-OCR项目的tessdata文件夹里面。3、下载jTessBoxEditor，这个是用来训练字库的。下载地址为：http://download.csdn.net/detail/lly...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。