Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

最新推荐文章于 2024-06-02 01:13:17 发布

程序媛一枚~

最新推荐文章于 2024-06-02 01:13:17 发布

阅读量1.1k

点赞数 1

分类专栏：图像处理图像识别 OCR 文章标签： Tesseract-OCR OCR光学字符识别图像识别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40985985/article/details/119707958

版权

图像处理同时被 3 个专栏收录

236 篇文章 43 订阅

订阅专栏

19 篇文章 1 订阅

订阅专栏

6 篇文章 0 订阅

订阅专栏

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

这篇博客将介绍如何安装和使用光学字符识别（OCR Optical Character Recognition）的Tesseract库，并使用命令行对图像中的字符进行识别；**除非图像被清晰地分割，否则 Tesseract 会产生很差的结果。**在“嘈杂”输入图像的情况下，需要通过训练自定义机器学习模型来识别特定用例中的字符来获得更高的准确性。

OCR（Optical Character Recognition）光学字符识别是将键入、手写或打印文本自动转换为机器编码文本的过程，然后可以通过字符串变量访问和操作这些文本。

Tesseract最初由Hewlett-Packard在20世纪80年代开发，在2005年开源。后来在2006年，谷歌采用了该项目，并从那时起一直是赞助商。

Tesseract软件适用于多种自然语言，从英语到现在支持100多种书面语言，并有代码，因此可以轻松地在其他语言上进行训练。
Tesseract 最适合构建文档处理管道，其中扫描图像、预处理，然后需要应用光学字符识别。
Tesseract 最适合具有高分辨率输入的情况，其中前景文本与背景清晰地分割开来。

1. 效果图

OCR 命令行识别效果图如下：

可以看到仅英文字符（红色划线和紫色圆圈标识区），仅数字（蓝色箭头标识区）都被成功识别；
在这里插入图片描述
Tesseract局限性例子，如信用卡上的数字识别效果如下：
并没有正确识别到；

2. Tesseract 安装及验证

1. 安装Tesseract

MacOS

brew install tesseract

ubuntu

sudo apt-get install tesseract-ocr

windows

官方安装文档见：https://github.com/UB-Mannheim/tesseract/wiki

tesseract-ocr-w32-setup-v5.0.0-alpha.20210811.exe (32 bit) 下载
 tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe (64 bit) 下载

2. 验证是否已安装Tesseract

tesseract -v
安装成功可以看到屏幕上的Tesseract版本，以及Tesseract与兼容的图像文件格式库列表。

在这里插入图片描述
3. 测试Tesseract OCR

使用Tesseract时，建议：

使用尽可能高的分辨率和DPI作为输入图像。
应用阈值从背景分割文本。
确保前景与背景尽可能清晰地分割（即，没有像素化或角色变形）。
对输入图像应用文本倾斜校正，以确保文本正确对齐。

不预处理可能会导致不正确的OCR结果。

参考

程序媛一枚~

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

这篇博客将介绍如何安装和使用光学字符识别（OCR Optical Character Recognition）的Tesseract库，并使用命令行对图像中的字符进行识别；**除非图像被清晰地分割，否则 Tesseract 会产生很差的结果。**在“嘈杂”输入图像的情况下，需要通过训练自定义机器学习模型来识别特定用例中的字符来获得更高的准确性。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

程序媛一枚~ 您的鼓励是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。