如何通过jTessBoxEditor进行Tesseract3.02.02样本训练

Tesseract生成.box文件后,需要用到jTessBoxEditor工具对其进行纠正,以下是

jTessBoxEditor的使用步骤。

1.加载要纠正的.tif文件,.box文件的内容也同时会加载到jTessBoxEditor,

如果这部分的内容为空,则是没有生成.box文件的!如下图:


2.加载步骤如下:


3.当一个字被识别为两个时,按住Ctrl键选中两个,然后点击Merge,即可进行合并!


4.有些空白处可能也会被jTessBoxEditor误认为是字体,用蓝色框框住,

这个可以直接选中,delete掉就好了!


5.正常情况下是每个字体都会有蓝色框框住,如果说有其中的两个相邻

的字都没有被框住,这时候即使采用insert后加上蓝色框,但是最后识别

还是有问题,这个不懂是不是我操作不对! 最后发现原来是两个字体

挨的太近的,导致区别不开了,在老大的建议下,把两个字的距离

隔开点来,就可以正常的框出来了!(如果有更好的方法,请指出,谢谢)

6.修改完成后保存即可!这里我是一张张样本图片进行修改的,但是我

这样做每张都有做同样的纠正,不知道有没有批量修改的方法呢?

7.在对图片进行训练之前,最好先用Opencv进行下处理,比如说

二值化,这样就可以去掉一些干扰!但是要注意的是在识别之前同样的

也对图片先进行相同效果的处理!这样的识别率会有所提高!


评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值