Tesseract-OCR 字符识别---样本训练

最新推荐文章于 2023-01-06 17:25:03 发布

Kazichs

最新推荐文章于 2023-01-06 17:25:03 发布

阅读量1.5k

点赞数

分类专栏：安卓开发安卓基础文章标签： tiff

本文链接：https://blog.csdn.net/Kazichs/article/details/52040497

版权

本文提供了Tesseract OCR字符识别的详细训练过程，通过链接可以访问到CSDN博主firehood_分享的具体步骤。

摘要由CSDN通过智能技术生成

详细训练方法地址：http://blog.csdn.net/firehood_/article/details/8433077

1.将裁剪好的图片（jpg格式），运行jTessBoxEditor工具，在点击菜单栏中Tools--->Merge TIFF。在弹出的对话框中选择样本图像（按Shift选择多张）合并成num.font.exp0.tif文件
2.在文件中打开命令提示符cmd，执行命令：
tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox  
生成的BOX文件为num.font.exp0.box，BOX文件为Tessercat识别出的文字和其坐标。
3.运行jTessBoxEditor工具，open打开tif文件，矫正图片
4.bat文件运行得到traineddata

rem 执行改批处理前先要目录下创建font_properties文件  

echo Run Tesseract for Training..  
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Kazichs

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Tesseract-OCR 字符识别---样本训练

tesseract训练
复制链接

扫一扫

专栏目录

Tesseract-OCR的简单使用与训练

云原生之家

09-21

4705

Tesseract-OCR的简单使用与训练 Tesseract，一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，与Microsoft Office Document Imaging（MODI）相比，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开

tesseract-ocr 字库训练（提高识别率进阶版）

最新发布

m0_60769905的博客

07-08

2083

打开 jTessBoxEditor ，点击Box Editor ->Open ，打开 mjorcen.normal.exp0.tif，会自动关联到“mjorcen.normal.exp0.box”文件，这两文件要求在同一目录下，调整完点击“save”保存修改。执行如下命令： tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 nobatch box.train。执行下面命令，执行完之后，会在当前目录生成zwp.test.exp0.tr文件。

2 条评论您还未登录，请先登录后发表或查看评论

Tesseract-OCR ---样本训练

scclove6的博客

03-17

820

1.下载工具jTessBoxEditor，这个工具是用来训练样本用的，由于该工具是用JAVA开发的，需要安装JAVA虚拟机才能运行。 2.获取样本图像。 3.合并样本图像。运行jTessBoxEditor工具，在点击菜单栏中Tools—>Merge TIFF。在弹出的对话框中选择样本图像（按Shift选择多张），合并成num.font.exp0.tif文件。 4.生成Box File文件。打开

Tesseract-OCR样本训练

milovetingting的专栏

07-04

309

个人博客 http://www.milovetingting.cn 下载Tesseract https://github.com/UB-Mannheim/tesseract/wiki 下载jTessBoxEditor https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/jTessBoxEditor-2.3.1.zip/download 安装Tesseract 一路Next，在选择组件界面，全选所有组件安装jTessBoxEdi.

Tesseract-OCR的样本训练方法

Tiiktak‘s

11-30

541

原文地址：Tiiktak的博客我们通常使用jTessBoxEditor训练工具进行训练，由于该工具是用Java开发的，所以在安装这个软件之前要保证电脑中有Java环境，这里就不介绍了。安装jTessBoxEditor 可以在这里下载到最新版安装包把下载得到的压缩包解压到任意位置，双击其中的train.bat文件，等待一会，弹出窗口就可以开始训练了制作训练样本 生成tif文件打开软件，选...

Tesseract-OCR 训练工具

08-21

Tesseract OCR（Optical Character Recognition，光学字符识别）是由Google维护的一款开源OCR引擎，能够自动识别图像中的文字并转换为可编辑文本。它广泛应用于文档扫描、图片文字提取等领域。然而，为了提高识别率...

Tesseract-OCR字符识别---样本训练.zip

06-09

http://blog.csdn.net/firehood_/article/details/8433077 本人参考这篇博客练习样本训练，整理了这些材料，材料中包括以下这些tesseract-ocr-setup-3.01-1.rar：tesseract-ocr-setup-3.01-1.exe安装包、...

Linux下安装tesseract-ocr教程及相关资源包

12-29

在Linux系统中，Tesseract OCR（Optical Character Recognition，光学字符识别）是一个强大的开源文本识别引擎，能够将图像中的文字转换成可编辑的文本格式。本教程将详细讲解如何在Linux环境下安装和使用Tesseract ...

tesseract-ocr实现图片识别功能（java）

11-18

一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持...可以参考网上的相关资料进行对Tesseract字符识别进行样本训练，通过使用训练后的语言库会提高识别精度。

文字识别Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

05-30

2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ...

tesseract样本训练工具-jTessBoxEditor2.2.zip

10-19

tesseract样本训练工具-jTessBoxEditor2.2.zip 亲测可用

Tesseract多样本合并训练测试

05-16

一个简单的Tesseract多样本合并训练测试，比如用tesseract训练得有多个样本，如果想要把这多个训练的样本进行合并，则该实例记录文档是个不错的选择（简单明了，避免趟坑：〉）

tesseract-ocr3.02安装包及中文识别库

05-10

解压后执行tesseract-ocr-setup-3.02.02.exe安装，tessdata 目录存放的是语言字库文件，本安装程序默认包含了英文字库。如果想识别中文将压缩包中的chi_sim.traineddata放入tessdata即可。

tesseract-ocr-w64-5.0.0+tesseract4.1.1

11-09

开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后由Google进行改进、修改bug、优化，重新发布。

Tesseract-OCR样本训练方法操作步骤

s15885823584的博客

10-08

1568

以下内容大部分从以下链接的博客摘抄下来的，把自己按按照步骤操作踩过的坑记录下，也供他人参考。 https://blog.csdn.net/sylsjane/article/details/83751297 软件下载、java环境下载参照原博客，直接写下训练方法步骤： 1、双击jTessBoxEditor,jar运行，点击Tools 2、点击Merge TIFF 3、文件类型...

Tesseract OCR的训练方法

guozhengdong的专栏

08-07

1234

网上有关于很多Tesseract OCR的训练文章，我kanl

帮我用java 使用 opencv + Tesseract 写一个识别验证码文字并标注文字坐标

weixin_42608299的博客

01-06

674

好的，我可以帮助您用 Java 使用 OpenCV 和 Tesseract 识别验证码文字并标注文字坐标。首先，您需要安装 OpenCV 和 Tesseract 的 Java 绑定，并将它们添加到您的项目中。然后，您可以使用 OpenCV 读入图像并使用 Tesseract 识别文字。下面是一个基本的示例代码，它可以帮助您开始使用 OpenCV 和 Tesseract 进行文字识别： ``` ...

tesseract-ocr训练字符

07-20

对于训练Tesseract-OCR识别特定字符，您可以按照以下步骤进行操作： 1. 收集训练数据：首先，您需要收集包含您要训练的字符的图像数据。确保收集足够多的样本，以获得更好的训练效果。 2. 准备训练数据：将收集到...