番外篇:基于tesseract的光学字符训练
番外篇:基于tesseract的光学字符训练
前提环境
- Tesseract
- jTessBoxEditor
- java运行环境
附图为jTessBoxEditor执行目录所有的文件:
制造字体
制造字体需要明确需要检测的字体类型,例如需要检测的目标字体为宋体,那么就可以在输入文字的时候把字体的系列改成宋体,如下为笔者需要OCR识别的字体。
制造makebox文件
- 命令提示符下进入需要制作图片的路径。
- 输入以下命令。
> tesseract zh_CN6.song.exp0.tif zh_CN6.song.exp0 batch.nochop makebox.
纠正字体
- jTessBoxEditor 打开tif文件(makebox)。