用Tesseract和jTessBoxEditor实现OCR的采坑记录

用Tesseract和jTessBoxEditor实现OCR的采坑记录

Tesseract的问题

我使用的是Tesseract4.0版本,参照的是别人的博客,注意不要下载最新版本,博主使用哪个版本就用哪个,否则会跟人家说明的步骤对不上,我开始下了个最新版本,后来运行某一步的时候会报“icuin63.dll”、“icucu63.dll”缺少的错误。

Tesseract4.0 分析他的chi_sim.traineddata 文件,应该是包含了一级字库的3755个字,但是有些字是识别不出来的,比如大写的数字“壹贰叁肆伍陆柒捌玖拾”等。原因不详,有经验的跪求指导。。。

jTessBoxEditor 训练

然后就是按照大家在网上经常能搜到的,试用 jTessBoxEditor进行训练,其实一直不理解,训练的目的,原因如下:

  1. 第一种训练方式,是使用工具里TIFF/Box Generator,可以把文字直接copy到工具的文本框里,选定字体直接训练。按照此种方式,我把一级字库考进来,选了楷体,训练了一把,结果还不如自带的字库chi_sim.traineddata 识别率高。至少,chi_sim.traineddata能识别一级字库的多种字体,还有基本的标点符号,数字,英文,自己训练的字库,只有一级字库,字体可以考虑多种字体的训练后合并。
  2. 还是使用工具里TIFF/Box Generator,只训练“壹贰叁肆伍陆柒捌玖拾”,然后放一个图片,包含这十个数字,结果还比较可以,除了柒其他都识别出来了,但是,这个数据集只认识这十个数字,自己训练的字库是无法和自带字库合并的,搜了一个方法是用+ 连接字库“chi_sim+num”,如果只识别十个数字,结果比只用“chi_sim+num”多认出了几个,还不如只用“num”字库认识的多,效果依旧不满意。
  3. 第二种方式,是拿图片训练,拿图片训练的字库,对于这张图片是识别率高了,但是新的图片的识别率似乎还是老样子。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值