Tesseract-OCR-03-图片文字识别

最新推荐文章于 2024-07-04 10:25:39 发布

肖朋伟

最新推荐文章于 2024-07-04 10:25:39 发布

阅读量1.4w

点赞数 4

分类专栏： # Tesseract 文字识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40147863/article/details/82289463

版权

Tesseract 文字识别专栏收录该内容

5 篇文章 1 订阅

订阅专栏

本篇介绍使用 Tesseract-OCR 做图片文字识别，识别手写文字的时候，正确率能达到 90%，当训练后正确率是极高的。这里介绍的图片文字识别，可以识别英文，数字和中文等

Tesseract-OCR 图片文字识别

Tesseract：一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，我们可以不断的训练的库，使图像转换文本的能力不断增强；如果团队深度需要，还可以以它为模板，开发出符合自身需求的OCR引擎
如果还没有安装 Tesseract-OCR 请参考：
- Windows下 Tesseract-OCR 的安装与环境变量配置
  https://blog.csdn.net/qq_40147863/article/details/82285920
当然配置环境也都下载上面那篇文章了，一步一图很详细

正题图片文字识别

我搜集了几个素材，懒得找可以直接下载：
https://pan.baidu.com/s/10XxYJa19KIa8-ENdQkhhHg
这里我是将图片放在了：D:\p
我们需要在 cmd 进入此目录
- 使用 cd 目录名进入目录
- 使用 cd.. 返回上一级目录
使用 Tesseract 命令：
tesseract 文件名保存的txt文件名 -l eng 例：

tesseract num1.jpg num1
这里 -l eng 是设置语言，不写的话，默认是 eng 也就是英语
结果：
注意：
- 1.这里如果报错 Tesseract 不是内部或外部命令，就是环境变量没有配置好参照：
  https://blog.csdn.net/qq_40147863/article/details/82285920
- 2.如果识别的图片文字是中文会提示，0个文字

识别手写英文

识别图片 eng2.jpg
输入命令：保存为 eng2.txt
我们对比一下结果：
这里是识别错了一个字母，把 ig 错误的识别成 S，包括上面那张数字也是错了一个
那也就是我们要努力的方向了

识别中文

这里识别中文只需要将 -l 参数改成 chi_sim 例如：
对有中文文字的图片 chi1.jpg ，进入图片路径，使用一下命令：

tesseract chi1.jpg chi1 -l chi_sim
图片样式：
执行命令：
运行结果：

识别英文和数字夹杂验证码

例如：
对图片 timg.jpg ，进入图片路径，使用一下命令：

tesseract timg.jpg timg
图片样式：
执行命令：
运行结果：

Tesseract 训练：

我们可以通过重复的训练，用更多的数据去训练，就可以达到更多高的识别正确率
我们使用 jTessBoxEditor 训练
由于 jTessBoxEditor 的安装和训练，内容比较多，我再整理一篇

更多文章链接：Tesseract 随笔

- 本笔记不允许任何个人和组织转载

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
打赏
1
评论
Tesseract-OCR-03-图片文字识别

本篇介绍使用 Tesseract-OCR 做图片文字识别，识别手写文字的时候，正确率能达到 90%，当训练后正确率是极高的。这里介绍的图片文字识别，可以识别英文和数字，不能直接识别中文Tesseract-OCR 图片文字识别Tesseract：一款由HP实验室开发由Google维护的开源OCR（Optical Character Recognition , 光学字符识别）引擎，我们可以不...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

肖朋伟 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。