Tesseract-OCR 的安装与使用

本文介绍了Tesseract-OCR的安装过程,包括在Ubuntu下的安装步骤,并探讨了如何使用该OCR引擎。通过示例展示了识别图片中的文字,同时指出未经图像预处理可能影响识别准确性。最后,作者分享了对计算机视觉和模式识别领域的初步认识。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

上篇博文写到爬取教务系统获取信息时,登录时的验证码是手动输入的,所以就想试试能不能自别识别验证码并填充。查阅了很多信息,选取了Tesseract。

What is Tesseract ?

Tesseract是能够运行在多种操作系统上的开源ORC(Optical Character Recognition , 光学字符识别)引擎,目前由Google维护,是最精确的开源ORC引擎之一。与Microsoft Office Document Imaging(MODI)相比,我们可以不断地训练,使图像转换文本的能力不断增强;如果团队深度需要,还能以它为模板,开发出符合自身需求的OCR引擎。

How to use Tesseract

1. 安装

ubuntu 下可以直接进行安装

sudo apt-get install tesseract-ocr

安装图像解析的包

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

查看是否安装成功

limeng@KID:~$ tesseract --version
tesseract 4.0.0-beta.3-249-g607e
 leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.3.1) : libpng 1.2.54 : 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值