由于tesseract的中文语言包“chi_sim”对中文手写字体或者环境比较复杂的图片,识别正确率不高,因此需要针对特定情况用自己的样本进行训练,提高识别率,通过训练,也可以形成自己的语言库。
对其他语言库有兴趣的:https://github.com/tesseract-ocr/tessdata
mac安装:brew install tesseract
1.前期准备工作:
1. 安装 jdk1.8或以上 配置jdk环境变量
2. 安装 tesseract-ocr 4.0
下载地址:https://digi.bib.uni-mannheim.de/tesseract/
配置环境变量:系统变量path添加 C:\Program Files (x86)\Tesseract-OCR; D:\Tesseract-OCR(对应自己的tesseract安装目录)
3. jTessBoxEditor2.0工具,用于调整图片上文字的内容和位置,
下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
安装包解压后双击里边的“jTessBoxEditor.jar”,或者双击该目录下的“train.bat”脚本文件,就可以打开该工具了。
4.准备Tess4J-3.4.8 下载:https://sourceforge.net/projects/tess4j/files/tess4j/
解压即可得到 tessdata训练库(后面自定义的语言库会用到)
2.样本图片准备:(进行训练的样本图片数量越多越好)
这里只准备2种不同字体样本进行测试: