纯记录,Tesseract-OCR 中文字符训练

本文详细记录了使用Tesseract-OCR进行中文字符训练的过程,包括图像格式、.box文件生成、文字校正、特征文件计算等关键步骤,并成功通过测试。
摘要由CSDN通过智能技术生成

参考了很多网上分享的东西,首先感谢他们。

由于最近有需求需要使用Tesseract-OCR来识别手写字符,开源的好像就好些了。

后面直接进入正题,直接说训练。

有部分网上说,要把图片转变成tif格式才来训练,其实jpg也是ok的,测试通过。

我操作的步骤如下:

1.将准备好的jpg或tif格式的图片(其他格式的尚未测试),通过jTessBoxEditor合并成一个tif格式文件。


2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下

3.文字校正:使用jTessBoxEditor来处理。


4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train


5.计算字符集
unicharset_extractor zhi.normal.exp0.box


6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0;

7、聚集字符特征
   1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr   注意:如果font_properties不加扩展名.txt,可能会报错
   2) mftraining -F font_properties.txt -U unicharset -

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值