Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

19 篇文章 1 订阅
6 篇文章 0 订阅

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

这篇博客将介绍如何安装和使用光学字符识别(OCR Optical Character Recognition)的Tesseract库,并使用命令行对图像中的字符进行识别;**除非图像被清晰地分割,否则 Tesseract 会产生很差的结果。**在“嘈杂”输入图像的情况下,需要通过训练自定义机器学习模型来识别特定用例中的字符来获得更高的准确性。

OCR(Optical Character Recognition)光学字符识别是将键入、手写或打印文本自动转换为机器编码文本的过程,然后可以通过字符串变量访问和操作这些文本。

Tesseract最初由Hewlett-Packard在20世纪80年代开发,在2005年开源。后来在2006年,谷歌采用了该项目,并从那时起一直是赞助商。

  • Tesseract软件适用于多种自然语言,从英语到现在支持100多种书面语言,并有代码,因此可以轻松地在其他语言上进行训练。
  • Tesseract 最适合构建文档处理管道,其中扫描图像、预处理,然后需要应用光学字符识别。
  • Tesseract 最适合具有高分辨率输入的情况,其中前景文本与背景清晰地分割开来。

1. 效果图

OCR 命令行识别效果图如下:

可以看到仅英文字符(红色划线和紫色圆圈标识区),仅数字(蓝色箭头标识区)都被成功识别;
在这里插入图片描述
Tesseract局限性例子,如信用卡上的数字识别效果如下:
并没有正确识别到;
在这里插入图片描述

2. Tesseract 安装及验证

1. 安装Tesseract

  • MacOS

brew install tesseract

  • ubuntu

sudo apt-get install tesseract-ocr

  • windows

官方安装文档见:https://github.com/UB-Mannheim/tesseract/wiki

tesseract-ocr-w32-setup-v5.0.0-alpha.20210811.exe (32 bit) 下载
tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe (64 bit) 下载

2. 验证是否已安装Tesseract

tesseract -v
安装成功可以看到屏幕上的Tesseract版本,以及Tesseract与兼容的图像文件格式库列表。

在这里插入图片描述
3. 测试Tesseract OCR

使用Tesseract时,建议:

  • 使用尽可能高的分辨率和DPI作为输入图像。
  • 应用阈值从背景分割文本。
  • 确保前景与背景尽可能清晰地分割(即,没有像素化或角色变形)。
  • 对输入图像应用文本倾斜校正,以确保文本正确对齐。

不预处理可能会导致不正确的OCR结果。

参考

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序媛一枚~

您的鼓励是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值