jTessBoxEditor工具安装和使用操作

本文介绍jTessBoxEditor工具,一款基于Java的OCR样本训练软件,用于提升Tesseract的文字识别率。涵盖安装步骤、操作流程及新库制作,适合希望优化OCR识别效果的开发者。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

一、jTessBoxEditor工具简单介绍

jTessBoxEditor工具是采用Tesseract一款专业的orc样本识别训练软件,基于java开发而来,可以进行Tesseract样本训练,形成自己的语言库,提高图片文字的识别率和准确率。

 

二、安装步骤

2.1 运行环境:jTessBoxEditor.jar运行需要安装jre环境,需要确认自己电脑的jre版本在8.0版本。若是jre6.0,则运行train.bat时会提示找不到主函数,无法正常运行。(如果是已经安装最新版金证自动化测试平台的agent就可以跳过jre安装)

 

2.2 jdk-8u201-windows-x64.exe下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2.3 jTessBoxEditor下载安装

A-官网下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

B-百度云盘下载地址(jTessBoxEditor-2.2.0和jTessBoxEditorFX-2.2.0和中文库chi_sim.traineddata,其中任何一个都可以):

链接:https://pan.baidu.com/s/1yjavV_EUwvmWSqbeKQUXgA
提取码:gxrd

!!!!些都不需要安装,直接解压即可!!!!!!

C-下图,在解压之后的目录下点击图中两个文件都可以启动

启动成功的界面:

三、 使用操作

操作步骤描述

必要操作文字说明先制作图片生成box文件训字操作制作新库

3.1 制作格式图片

如果使用工具制作box文件和库,该步骤可以忽略!

后续操作以如下图片为例:

 

图片目录:

图片内容:

3.2 根据图片产出box格式文件

 

操作见如下图片1,2,3,4,5,6操作:

Run操作后结果如下图:

Box文件打开内容如下:

!!!可以看到有几个字没有识别有误,下面就是手动矫正错误的地方!!!

 

3.2 训字操作详解

 1.打开jTessBoxEditor的如下界面:

2 点击“open”打开目标图片2.png,如下图:

3 点打开之后,界面如下:

4 开始矫正错误数据

4.1按上图选中错误“旧”字,然后单击“Box View”,结果如下图:

4.2

 

把错误的字矫正完后,如下图:

 Box文件如下图:

3.4 制作新库

制作新库操作操作如下图1,2,3,4,5,6:

注:新库的命名可以按标准格式命名,如下(此处演示就用num表示):

文面命名格式[lang].[fontname].exp[num]

lang是语言,fontname是字体,num为自定义数字

 

 

输入结果如图:

在目标图片(box文件)同级目录下,会产生如上图展示的文件,我们的新库就在tessdata目录下,其余中间文件都是没用的可以删掉

新库如下:

然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了:

3.5 直接识别和训字后识别效果比对效果如下:

Python代码验证:

用jTessBoxEditor工具验证(用制作box文件操作步骤验证):

A--识别语言选择用新库如下图(前提也必须把新库拷贝到你使用tesseract.exe对应的tessdata目录下):

B-查看新的box文件就中数据,如下:

四  后续可以研究的内容

  1. 如果合并训后的库,该工具好像不行,只能用cmd 命令(命令和复杂);
  2. 上述工作,其实也可以cmd命令完成,但是比较啰嗦,而且文件格式有一些特定要求;
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值