tess4j 训练_文本识别手写文字tesseract训练

本文详细介绍了如何使用tess4j进行Tesseract OCR的自定义训练,以提高中文手写文字识别的准确性。通过jTessBoxEditor处理样本图片,生成训练所需的各种文件,最终合并成训练数据包并应用于代码测试,展示了一个完整的训练流程。
摘要由CSDN通过智能技术生成

由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。

对其他语言库有兴趣的:https://github.com/tesseract-ocr/tessdata

mac安装:brew install tesseract

1.前期准备工作:

  1.  安装  jdk1.8或以上    配置jdk环境变量

  2.  安装 tesseract-ocr 4.0

下载地址:https://digi.bib.uni-mannheim.de/tesseract/

12ebc338c327429cda68a2e2def3f6d8.png

  配置环境变量:系统变量path添加 C:\Program Files (x86)\Tesseract-OCR;  D:\Tesseract-OCR(对应自己的tesseract安装目录)

  3.  jTessBoxEditor2.0工具,用于调整图片上文字的内容和位置,

下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

安装包解压后双击里边的“jTessBoxEditor.jar”,或者双击该目录下的“train.bat”脚本文件,就可以打开该工具了。

624be253aa08653e17cdc553e5f7468f.png

4.准备Tess4J-3.4.8   下载:https://sourceforge.net/projects/tess4j/files/tess4j/

解压即可得到  tessdata训练库(后面自定义的语言库会用到)

a2c9a7d809e127bb69374a49e45c8b31.png

2.样本图片准备:(进行训练的样本图片数量越多越好)

这里只准备2种不同字体样本进行测试:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值