1.准备工作
1.安装tesseract5.0版本,可以参考这里:windwos系统安装,笔者安装的(2021年12月2日)最新的版本tesseract-ocr-w64-setup-v5.0.0.20211201.exe 下载链接.
2.配置环境变量
可以不配置环境变量,不配置环境变量使用起来比较麻烦,笔者用的是win10 64位系统
3.下载中文语言包下载地址,下载完成后放到Tesseract-OCR 5.0 tessdata目录中
4.准备训练的资料 笔者准备的是3500个汉字 下载地址
训练
1.使用text2image 命令生成tif、box文档
text2image --text G:\demo\net\文字转图片工具\常用3500文字等线.txt --outputbase E:\jTessBoxEditorFX\czq