tesseract 3.02使用及语言库训练

最新推荐文章于 2024-04-19 14:13:29 发布

G1_2_3

最新推荐文章于 2024-04-19 14:13:29 发布

阅读量584

点赞数

分类专栏： tesseract 文章标签： tesseract jTessBoxEd

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/G1_2_3/article/details/72240443

版权

本文介绍了如何使用开源OCR引擎tesseract 3.02，包括安装、基本使用、语言库训练过程，并重点讲解了利用jTessBoxEditor进行样本图像处理、文字校正和训练文件生成的详细步骤，以提高识别准确率。

摘要由CSDN通过智能技术生成

tesseract使用

Tesseract是一个开源的OCR（Optical Character Recognition，光学字符识别）引擎，可识别多种格式的图像文件并将其转换成文本，目前已支持60多种语言（包括中文），github上有工程。地址为https://github.com/tesseract-ocr/tesseract。

使用

安装，可以安装发布版本.exe，直接可以使用
使用
1) 准备一副待识别的图像，input.jpg，放到tesseract-OCR的安装目录下
2)打开命令行，（如果装在C盘，用管理员身份启动），打开目录到tesseract-OCR的安装目录，输入指令tesseract.exe input.jpg output -l eng，其中output为输出的.txt文件，eng表示识别的语言为英文。查看output可知道识别准确率不高。

训练样本

下载工具jTessBoxEditor，其中有个.jar文件，可以直接双击使用（由于该工具由java开发，需要安装jdk）
准备样本图像（至少5张），和input.jpg里的内容类似
合并样本图像。运行jTessBoxEditor–>Tools–>Merge Tiff，在弹出的对话框中shift选中所有样本图片，合并成num.font.exp0.tif文件。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
tesseract 3.02使用及语言库训练

Tesseract语言库训练例程
复制链接

扫一扫

专栏目录

G1_2_3 CSDN认证博客专家 CSDN认证企业博客

码龄12年

11: 原创

59万+: 周排名

207万+: 总排名

1万+: 访问

: 等级

295: 积分

3: 粉丝

6: 获赞

2: 评论

4: 收藏

私信

关注

热门文章

分类专栏

练习 6篇
软件相关 1篇
知识累积 2篇
tesseract 2篇

最新评论

java数组长度为0和数组为null
Saphroth: 我对null的理解是:null是可以代表任何对象,但它不是对象也不属于任何类,只是对象的替代品.
Eclipse下jquery.min.js文件报错解决方案
幽幽有悠悠呦: 搜索了一大圈，老是这个答案。憋不住了，必须吐槽：你是猪吗？？？为啥出口成脏呢？假设个环境：电脑中毒了。杀毒软件提示你电脑出问题了，你不查杀病毒，而是卸载杀毒软件。确实是没提示病毒了，但是再次中毒你也不会立马知道了对应当前环境 jquery.min.js语法错误了，eclipse提示你出问题了，你不解决问题，而是把检查问题的功能关闭，确实不会错误提示了，但是以后出问题你也不会立马知道了。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。