Tesseract生成.box文件后,需要用到jTessBoxEditor工具对其进行纠正,以下是
jTessBoxEditor的使用步骤。
1.加载要纠正的.tif文件,.box文件的内容也同时会加载到jTessBoxEditor,
如果这部分的内容为空,则是没有生成.box文件的!如下图:
2.加载步骤如下:
3.当一个字被识别为两个时,按住Ctrl键选中两个,然后点击Merge,即可进行合并!
4.有些空白处可能也会被jTessBoxEditor误认为是字体,用蓝色框框住,
这个可以直接选中,delete掉就好了!
5.正常情况下是每个字体都会有蓝色框框住,如果说有其中的两个相邻
的字都没有被框住,这时候即使采用insert后加上蓝色框,但是最后识别
还是有问题,这个不懂是不是我操作不对! 最后发现原来是两个字体
挨的太近的,导致区别不开了,在老大的建议下,把两个字的距离
隔开点来,就可以正常的框出来了!(如果有更好的方法,请指出,谢谢)
6.修改完成后保存即可!这里我是一张张样本图片进行修改的,但是我
这样做每张都有做同样的纠正,不知道有没有批量修改的方法呢?
7.在对图片进行训练之前,最好先用Opencv进行下处理,比如说
二值化,这样就可以去掉一些干扰!但是要注意的是在识别之前同样的
也对图片先进行相同效果的处理!这样的识别率会有所提高!