Tesseract-OCR 的安装与使用

最新推荐文章于 2025-06-25 12:33:19 发布

NPU_Li Meng

最新推荐文章于 2025-06-25 12:33:19 发布

阅读量2k

点赞数

CC 4.0 BY-SA版权

分类专栏：模式识别文章标签： Tesseract-OCR ORC图像识别 Java图像识别计算机视觉

本文链接：https://blog.csdn.net/ldx19980108/article/details/81240414

本文介绍了Tesseract-OCR的安装过程，包括在Ubuntu下的安装步骤，并探讨了如何使用该OCR引擎。通过示例展示了识别图片中的文字，同时指出未经图像预处理可能影响识别准确性。最后，作者分享了对计算机视觉和模式识别领域的初步认识。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

上篇博文写到爬取教务系统获取信息时，登录时的验证码是手动输入的，所以就想试试能不能自别识别验证码并填充。查阅了很多信息，选取了Tesseract。

What is Tesseract ？

Tesseract是能够运行在多种操作系统上的开源ORC（Optical Character Recognition , 光学字符识别）引擎，目前由Google维护，是最精确的开源ORC引擎之一。与Microsoft Office Document Imaging（MODI）相比，我们可以不断地训练，使图像转换文本的能力不断增强；如果团队深度需要，还能以它为模板，开发出符合自身需求的OCR引擎。

How to use Tesseract

1. 安装

ubuntu 下可以直接进行安装

sudo apt-get install tesseract-ocr

安装图像解析的包

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev

查看是否安装成功

limeng@KID:~$ tesseract --version
tesseract 4.0.0-beta.3-249-g607e
 leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.3.1) : libpng 1.2.54 :

最低0.47元/天解锁文章

200万优质内容无限畅学