1. 安装tesseract-ocr5
https://digi.bib.uni-mannheim.de/tesseract/
2. 使用jTessBoxEditor 生成tif文件
3. 生成box文件
tesseract nml.num.exp0.tif nml.num.exp0 -l eng --psm 6 batch.nochop makebox
4. jTessBoxEditor调整.box文件
jTessBoxEditor手动调整
5. 生成lstm文件
./tesseract num.font.exp0.tif num.font.exp0 -l eng --psm 6 lstm.train
6. 生成eng.lstm 文件
combine_tessdata -e eng.traineddata eng.lstm
7. eng.traineddata
使用 https://github.com/tesseract-ocr/tessdata_best 下载的文件
8. 创建eng.training_files.txt
内容为 C:\Program Files\Tesseract-OCR\num.font.exp0.lstmf
9. 训练
.\lstmtraining.exe --traineddata="C:\eng.traineddata" --model_output="C:\output" --continue_from="C: