纯记录，Tesseract-OCR 中文字符训练

最新推荐文章于 2024-07-08 09:38:15 发布

长弓成

最新推荐文章于 2024-07-08 09:38:15 发布

阅读量2.3k

点赞数

分类专栏： OCR

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mjcheng8879/article/details/52810409

版权

本文详细记录了使用Tesseract-OCR进行中文字符训练的过程，包括图像格式、.box文件生成、文字校正、特征文件计算等关键步骤，并成功通过测试。

摘要由CSDN通过智能技术生成

参考了很多网上分享的东西，首先感谢他们。

由于最近有需求需要使用Tesseract-OCR来识别手写字符，开源的好像就好些了。

后面直接进入正题，直接说训练。

有部分网上说，要把图片转变成tif格式才来训练，其实jpg也是ok的，测试通过。

我操作的步骤如下：

1.将准备好的jpg或tif格式的图片（其他格式的尚未测试），通过jTessBoxEditor合并成一个tif格式文件。

2.生成.box文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 -l chi_sim batch.nochop makebox
保证tif文件与box文件在同一目录下。

3.文字校正：使用jTessBoxEditor来处理。

4.产生字符特征文件
tesseract.exe zhi.normal.exp0.tif zhi.normal.exp0 nobatch box.train

5.计算字符集
unicharset_extractor zhi.normal.exp0.box

6.定义字体特征文件
font_properties.txt
我的是normal 0 0 0 0 0；

7、聚集字符特征
1) shapeclustering -F font_properties.txt -U unicharset zhi.normal.exp0.tr 注意：如果font_properties不加扩展名.txt，可能会报错
2) mftraining -F font_properties.txt -U unicharset -

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。