jTessBoxEditor工具安装和使用操作

 

一、jTessBoxEditor工具简单介绍

jTessBoxEditor工具是采用Tesseract一款专业的orc样本识别训练软件,基于java开发而来,可以进行Tesseract样本训练,形成自己的语言库,提高图片文字的识别率和准确率。

 

二、安装步骤

2.1 运行环境:jTessBoxEditor.jar运行需要安装jre环境,需要确认自己电脑的jre版本在8.0版本。若是jre6.0,则运行train.bat时会提示找不到主函数,无法正常运行。(如果是已经安装最新版金证自动化测试平台的agent就可以跳过jre安装)

 

2.2 jdk-8u201-windows-x64.exe下载地址:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

2.3 jTessBoxEditor下载安装

A-官网下载地址:https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

B-百度云盘下载地址(jTessBoxEditor-2.2.0和jTessBoxEditorFX-2.2.0和中文库chi_sim.traineddata,其中任何一个都可以):

链接:https://pan.baidu.com/s/1yjavV_EUwvmWSqbeKQUXgA
提取码:gxrd

!!!!些都不需要安装,直接解压即可!!!!!!

C-下图,在解压之后的目录下点击图中两个文件都可以启动

启动成功的界面:

三、 使用操作

操作步骤描述

必要操作文字说明先制作图片生成box文件训字操作制作新库

3.1 制作格式图片

如果使用工具制作box文件和库,该步骤可以忽略!

后续操作以如下图片为例:

 

图片目录:

图片内容:

3.2 根据图片产出box格式文件

 

操作见如下图片1,2,3,4,5,6操作:

Run操作后结果如下图:

Box文件打开内容如下:

!!!可以看到有几个字没有识别有误,下面就是手动矫正错误的地方!!!

 

3.2 训字操作详解

 1.打开jTessBoxEditor的如下界面:

2 点击“open”打开目标图片2.png,如下图:

3 点打开之后,界面如下:

4 开始矫正错误数据

4.1按上图选中错误“旧”字,然后单击“Box View”,结果如下图:

4.2

 

把错误的字矫正完后,如下图:

 Box文件如下图:

3.4 制作新库

制作新库操作操作如下图1,2,3,4,5,6:

注:新库的命名可以按标准格式命名,如下(此处演示就用num表示):

文面命名格式[lang].[fontname].exp[num]

lang是语言,fontname是字体,num为自定义数字

 

 

输入结果如图:

在目标图片(box文件)同级目录下,会产生如上图展示的文件,我们的新库就在tessdata目录下,其余中间文件都是没用的可以删掉

新库如下:

然后把新库拷到Tesseract-OCR\tessdata目录下就可以使用了:

3.5 直接识别和训字后识别效果比对效果如下:

Python代码验证:

用jTessBoxEditor工具验证(用制作box文件操作步骤验证):

A--识别语言选择用新库如下图(前提也必须把新库拷贝到你使用tesseract.exe对应的tessdata目录下):

B-查看新的box文件就中数据,如下:

四  后续可以研究的内容

  1. 如果合并训后的库,该工具好像不行,只能用cmd 命令(命令和复杂);
  2. 上述工作,其实也可以cmd命令完成,但是比较啰嗦,而且文件格式有一些特定要求;
### 回答1: jtessboxeditor是一种用于OCR(光学字符识别)领域的迭代模型。OCR是将图像中的文本转换为计算机可识别的文本的过程。该模型基于迭代算法,通过不断优化和改进字符识别的准确性和性能。 在jtessboxeditor迭代模型中,首先,我们需要提供一组已经标记的训练图像,这些训练图像包含我们想要识别的字符和相应的标签。然后,我们使用jtessboxeditor来创建字框框架,即将字符标记为与输入图像的特定区域相对应的边界框。 在这之后,我们执行第一次迭代,以利用初始字框框架对字符进行识别。然后,通过比较识别结果和标签,我们可以计算字符识别的准确性,并对识别错误的字符进行纠正。通过纠正识别错误,可以提高模型的准确性。 接下来,我们执行第二次迭代,并根据上一次迭代中对字符进行修正。此迭代过程将不断循环重复,直到达到最佳的字符识别准确性为止。 而jtessboxeditor迭代模型的优势在于,它允许用户参与模型的改进过程。用户可以通过手动调整字框框架和纠正识别错误,来完善模型的准确性。这种参与性可以提高OCR系统的性能,使其更符合用户的需求和要求。 综上所述,jtessboxeditor迭代模型是一种通过迭代算法不断优化OCR系统的字符识别准确性和性能的模型。它的使用可以通过用户参与提高系统的准确性,从而更好地满足用户的需求。 ### 回答2: JTessBoxEditor是一个用于创建和编辑Tesseract OCR训练数据的开发工具。它使用迭代模型来提高OCR的精确度和性能。 迭代模型是一个循序渐进的过程,通过多次迭代来不断改进和优化OCR的结果。JTessBoxEditor的迭代模型可以分为以下几个步骤: 1. 数据收集:首先,我们需要收集大量的训练数据。这些数据应该包含各种不同的字体、大小、样式和布局。JTessBoxEditor提供了一个界面,可以用于创建和管理训练数据集。 2. 初始训练:在收集到足够的训练数据后,可以使用JTessBoxEditor进行初始训练。它将使用收集到的数据对OCR引擎进行初始训练,以便进行初步的字符识别。 3. 数据标注和编辑:JTessBoxEditor允许用户标注和编辑OCR的训练数据。用户可以检查和修正OCR可能出现的错误,同时还可以添加和删除字符。 4. 训练结果评估:在经过一系列的数据标注和编辑后,需要评估训练结果的质量和性能。JTessBoxEditor提供了一些评估工具,可以帮助用户分析和评估训练结果的准确性和鲁棒性。 5. 迭代训练:基于评估结果,如果发现OCR的准确性还不够高,可以继续迭代训练。重复进行数据标注、编辑和训练的过程,直到达到预期的OCR准确度。 通过这个迭代模型,JTessBoxEditor帮助用户不断改善OCR的性能和精确度。用户可以根据具体需求,持续优化训练数据集,并通过多次训练和评估来提高OCR的识别准确性。 ### 回答3: jtessboxeditor是一个用于训练Tesseract OCR(光学字符识别)引擎的开源工具。它使用了迭代模型进行训练。 迭代模型成为实现OCR引擎训练的常用方法,因为OCR系统需要不断优化和改进以提高其识别能力。这个模型允许反复迭代训练,直到达到满意的性能水平。 迭代模型的基本原理是,在初始训练集上训练OCR引擎,并将其用于识别一部分新的测试集。然后,通过手动标记测试集中识别错误的部分,并将其添加到训练集中用于下一次训练。这个过程不断循环,直到识别精度达到预期。 在jtessboxeditor中,迭代模型的实现如下:首先,我们首先选择一个适当的训练样本集,该样本集包含正确标记的字符图像。然后,我们将这些图像导入jtessboxeditor中进行训练。 在训练过程中,jtessboxeditor使用Tesseract引擎对训练样本进行识别。接下来,我们需要手动检查识别结果,并标记那些由于识别错误而被Tesseract引擎错误识别的字符。 标记完错误的字符后,我们将其添加回训练集中,并使用jtessboxeditor再次进行训练。这一迭代过程可以多次重复,直到达到我们期望的识别精度。 迭代模型的优点是,可以不断反复训练并纠正错误,不断提高OCR引擎的性能。然而,这个过程需要耗费大量的时间和人力资源,因为需要手动标记错误字符并对训练集进行更新。 总而言之,jtessboxeditor使用了迭代模型来训练Tesseract OCR引擎,允许用户通过不断迭代优化和改进来提高OCR识别的准确性。
评论 27
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值