Tesseract-OCR-04-使用 jTessBoxEditor 提高文字识别准确率

最新推荐文章于 2023-11-29 21:44:21 发布

鬼父弟弟

最新推荐文章于 2023-11-29 21:44:21 发布

阅读量315

点赞数

本文链接：https://blog.csdn.net/qq_44906554/article/details/89244471

版权

本文详细介绍了如何通过jTessBoxEditor进行Tesseract OCR的训练，包括安装工具、获取样本、合并文件、生成BOX文件、定义字符配置、字符矫正、执行批处理等步骤，以显著提高文字识别的准确性。通过训练，数字识别的准确率得到了大幅提升。

摘要由CSDN通过智能技术生成

本篇是关于 jTessBoxEditor 进行训练，使 Tesseract-OCR 文字识别准确率得到极大的提高，本篇完善了很多细节，初学者也可以看懂，一起学习吧！

训练的大致步骤：
安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中

下载jTessBoxEditor，地址https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
解压后得到jTessBoxEditor
由于这是由Java开发的，所以我们应该确保在运行jTessBoxEditor前先安装JRE（Java Runtime Environment，Java运行环境）
没有安装 jre 的可以到官网下载安装：
http://www.oracle.com/technetwork/java/javase/downloads/jre8-downloads-2133155.html
jre 安装就不仔细介绍了，因为能找到这篇的，基本都安装过了，下面介绍 jTessBoxEditor
但是呢，这个 jTessBoxEditor ，不用安装，直接解压就可以，单击解压到或者直接拉出来就可以了