tesseract win 训练

这里要安装两个工具:
1.VietOCR
这个工具是用来整理图片,将一个个图片整理成一个tif文件
2.jTessBoxEditorFX
这个工具是用来标注文字的

首先要安装java8的环境,这里选择的是jdk-8u191-win64.

1.整理图片

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

2. 生成box文件

tesseract test.tif test -l chi_sim batch.nochop makebox

3.进行校对

注意tif文件名称要和box文件名称相同,而且二者要位于同一个文件夹下面。这时用jtess打开tif文件即可。
在这里插入图片描述

4.训练

字符特征文件(*.tr)

tesseract test.tif test nobatch box.train

计算字符集(unicharset)

unicharset_extractor test.box

定义字体特征文件并聚集字符特征

新建font_properties文件,并输入
test 0 0 0 0 0
test 必须与训练名中的名称保持一致,填入下面内容 ,这里全取值为0,表示字体不是粗体、斜体等等

mftraining -F font_properties -U unicharset test.tr

cntraining test.tr

把unicharset, inttemp, normproto, pffmtable,shapetable文件加上前缀“test.”。然后 合并训练文件,生成traineddata

combine_tessdata test.

查看新的语言包
将test.traineddata放到tesseract的traindata文件夹下。
tesseract --list-langs

至此就完成了训练。

5.测试训练结果

文章资源下载:
tesseract:https://download.csdn.net/download/claroja/10711353
java环境:https://download.csdn.net/download/claroja/10711344
java11好像不能用,这里用java8

参考文献:
https://www.jianshu.com/p/5c8c6b170f6f
http://vietocr.sourceforge.net/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值