tesseract 3.02 训练字库全解

最新推荐文章于 2024-07-08 09:38:15 发布

置顶

mengfick

最新推荐文章于 2024-07-08 09:38:15 发布

阅读量6.4k

点赞数 2

分类专栏： Tesseract OCR 训练字库

本文链接：https://blog.csdn.net/mengfick/article/details/38054821

版权

本文介绍了如何使用tesseract 3.02进行OCR字库训练，包括准备软件、创建项目文件夹、合并图片、生成box文件、修正错误、制作字符特征文件、计算字符集、合并文件以及最终生成训练字库文件的过程。

摘要由CSDN通过智能技术生成

最近看到google的tesseract OCR 的文章，深感兴趣，就试了试具体实现方法。

如果要识别非常规范的字母和数字，直接使用自带的字库就足够；但是若要识别一些非规则或者手写的，就要训练自己的字库。

下面是我的一些步骤：

1、首先准备两个软件：

tesseract 3.02 下载：https://code.google.com/p/tesseract-ocr/downloads/list

jTessBoxEditor：http://vietocr.sourceforge.net/training.html

2、创建一个test文件夹，保存本次项目的所有文件。

将字库文件放到文件夹下，字库图片越多越好，最好是tif格式的，因为下面用到的jTessBoxEditor只能合并tif图片。

3、打开jTessBoxEditor软件选择tool->Merge,选择多张图片，确定，

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

mengfick

关注关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

【win 10】win 10 ：tesseract-ocr 、tesserocr 下载、安装、提取图片验证码

顾三殇 —— 博客空间（软件测试）

10-17

5526

目录一、tesseract-ocr 下载二、tesseract-ocr 安装三、解压中文语言包四、tesserocr 下载和安装五、tesseract-ocr 提取图片验证码一、tesseract-ocr 下载（1）示例安装tesseract-ocr-setup-3.02.02.exe：下载地址：点击前往下载我的资源下载地址：https://download....

Tesseract5.0 图像识别本地服务三【训练自定义字库,提高图片的识别效果】

悟能的师兄的专栏

06-16

1315

一：简介 OCR(Optical Character Recognition)：光学字符识别，是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。 Tesseract：开源的OCR识别引擎，初期Tesseract引擎由HP实验室研发，后来贡献给了开源软件业，后由Google进行改进、修改bug、优化，重新发布。二：训练自定义字库本文大量参考学习以下文章： Tesseract-OCR 中文识别与训练字库： ht

1 条评论您还未登录，请先登录后发表或查看评论

tesseract-ocr 字库训练（提高识别率进阶版）

最新发布

m0_60769905的博客

07-08

3068

打开 jTessBoxEditor ，点击Box Editor ->Open ，打开 mjorcen.normal.exp0.tif，会自动关联到“mjorcen.normal.exp0.box”文件，这两文件要求在同一目录下，调整完点击“save”保存修改。执行如下命令： tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 nobatch box.train。执行下面命令，执行完之后，会在当前目录生成zwp.test.exp0.tr文件。

Tesseract-OCR的安装和使用

weixin_46569877的博客

06-29

4598

OCR

cnocr训练_Tesseract-OCR 训练过程 V3.02

weixin_42474537的博客

01-14

236

软件：jTessBoxEditor Version 0.9 (30 April 2013)Tesseract-OCR win32 v3.02 with Leptonica训练步骤：1.使用jTessBoxEditor,tools->merge_tif，产生tif文件2.产生box文件tesseract.exe eng.arial.01.tif eng.arial.01 batch.nocho...

tesseract测试时遇到的小坑（Error, cannot read input file /Users/ASUS/image.png: No such file or directory Er）

m0_51200779的博客

08-19

1311

网上找了许多资料，来验证安装我们使用 tesseract 来进行测试 tesseract /Users/jerry/Desktop/image.png result -l eng && cat result.txt 结果如下这个部分请根据存储路径自行更改操作如下：右击照片-----------属性-----------位置 ################################################# 这里我们调用了 tesseract 其中第一个参数为图片

tesseract ocr字库训练（包含字库合并）

11-27

Tesseract-OCR字库训练，其中包含三个部分： 1、jTessBoxEditor安装 2、字库训练 3、合并字库

tesseract3.02 vs2012 工程源码

12-18

《Tesseract 3.02在VS2012下的工程源码解析》 Tesseract 3.02是一款开源的OCR（Optical Character Recognition，光学字符识别）引擎，由HP公司开发，后被Google接管并持续更新。VS2012则是Microsoft Visual Studio ...

Tesseract 3.02中文字库训练----整理

热门推荐

liulina603的专栏

04-16

2万+

下载chi_sim.traindata字库下载tesseract-ocr-setup-3.02.02.exe 安装到d:\Tesseract-ocr目录下下载jTessBoxEditor用于修改box文件下载地址：http://download.csdn.net/detail/a443475601/5896893 里面自带java运行库，安装后然后启动

Java使用Tesseract4.0训练字库并且识别训练后的图片

02-24

本资源包括工具（zip）和训练好的模型以及一个java文件工具：jTessBoxEditor工具用于调整图片上文字的内容和位置训练好的模型在tessdata下面。注：在java代码下使用训练好的模型，训练后的模型必须放到tessdata...

Tessract训练字库步骤

07-01

本教程为Tessract训练新字库的步骤，按教程说明一定可以训练出新的语言字库。

C#调用Tesseract3.0.2识别验证码所需要的组件

08-03

C#调用Tesseract3.0.2识别验证码所需要的组件,包括引用的一些DLL，以及字符识别包

tessdata字体训练全套工具（内含中文简体字库）

11-27

tesseract-ocr中文简体字库,tesseract-ocr作为一款开源、免费的OCR引擎，能够支持中文十分难得。虽然其识别效果不是很理想，但是对于要求不高的中小型项目来说，已经足够用了。如果想提高中文的识别率可以运用jTessBoxEditor进行有针对性的训练，本资源包含了格式转换器以及训练时候遇到的问题解决心得。

tesseract-4.1.0.rar

04-23

1. Window10 编译 tesseract 4.1 2. 有效解决 couldn't find a matching blob 问题

win10使用tesseract的错误合集（遇到就更新）

没有人看的博客

01-09

1407

安装pytesseract和下载tesseract-orc 安装pytessetract使用anaconda自带的pip install pytesseract，此时你不能直接使用，还需要去tesseract的github里下一个tesseract-orc，也可以直接去我的云盘下（比较快）：https://pan.baidu.com/s/1MOgWTsaRASed4pep_SPYYg 下载完成后安...

tesseract的安装使用及配置问题解决

Alexa_的博客

11-07

1万+

tesseract的安装使用及配置问题解决一、安装tesseract 二、配置环境变量三、cmd方式中出现的问题及解决方法四、 pycharm方式中出现的问题及解决办法五、验证结果一、安装tesseract 1，OCR，即Optical Character Recognition，光学字符识别，是指通过扫描字符，然后通过其形状将其翻译成电子文本的过程。 2，tesseract下载地址：https://digi.bib.uni-mannheim.de/tesseract/ 3，如下图所示，将下载之后

Tesseract-OCR 3.0+ 安装和使用

_yuki_

10-27

2949

0.介绍 Tesseract是一个开源的OCR引擎，能识别100多种语言（中，英，韩，日，德，法...等等），但是Tesseract对手写的识别能力较差 1.安装 brew install leptonica brew install tesseract #或 brew install --with-training-tools tesseract pip install pyte

关于tesseract的报错解决

mzc000315的博客

10-30

944

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

tesseract3.02 中文库下载

12-29

Tesseract 3.02是Tesseract引擎的一个版本，它支持中文字符的识别。要下载Tesseract 3.02中文库，您可以按照以下步骤进行： 1. 在互联网浏览器中打开Tesseract的官方GitHub页面或其他可信的开发者网站。 2. 在...