tess4j 训练_文本识别手写文字tesseract训练

最新推荐文章于 2024-09-08 17:43:42 发布

撒哈巴拉卡达西亚

最新推荐文章于 2024-09-08 17:43:42 发布

阅读量5.3k

点赞数 6

文章标签： tess4j 训练

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_29254673/article/details/113322249

版权

本文详细介绍了如何使用tess4j进行Tesseract OCR的自定义训练，以提高中文手写文字识别的准确性。通过jTessBoxEditor处理样本图片，生成训练所需的各种文件，最终合并成训练数据包并应用于代码测试，展示了一个完整的训练流程。

摘要由CSDN通过智能技术生成

由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片，识别正确率不高，因此需要针对特定情况用自己的样本进行训练，提高识别率，通过训练，也可以形成自己的语言库。

对其他语言库有兴趣的：https://github.com/tesseract-ocr/tessdata

mac安装：brew install tesseract

1.前期准备工作：

1. 安装 jdk1.8或以上配置jdk环境变量

2. 安装 tesseract-ocr 4.0

下载地址：https://digi.bib.uni-mannheim.de/tesseract/

配置环境变量：系统变量path添加 C:\Program Files (x86)\Tesseract-OCR; D:\Tesseract-OCR(对应自己的tesseract安装目录)

3. jTessBoxEditor2.0工具，用于调整图片上文字的内容和位置，

下载地址：https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

安装包解压后双击里边的“jTessBoxEditor.jar”，或者双击该目录下的“train.bat”脚本文件，就可以打开该工具了。

4.准备Tess4J-3.4.8 下载：https://sourceforge.net/projects/tess4j/files/tess4j/

解压即可得到 tessdata训练库(后面自定义的语言库会用到)

2.样本图片准备：(进行训练的样本图片数量越多越好)

这里只准备2种不同字体样本进行测试：

最低0.47元/天解锁文章

撒哈巴拉卡达西亚

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。