目录:
- 安装Tesseract
- 验证Tesseract是否能正常使用
- 在样本图像上尝试Tesseract OCR
本文是关于安装和使用 Tesseract库 进行光学字符识别(OCR)系列的第一部分,将介绍如何安装和配置 Tesseract,然后会使用 tesseract
命令识别图像中的文字。
安装Tesseract for OCR
Tesseract 应用于许多自然语言,自2015年更新以来,它现在支持100多种书面语言并且提供源码,因此也可以轻松地使用其他语言进行训练。
最初它是一个C程序,后来被移植到C ++。 Tesseract可以通过命令行执行。 它没有GUI,但有其他的几个软件包给Tesseract提供了GUI界面。
要阅读有关Tesseract的更多信息,请访问 项目页面 并阅读 Wikipedia文章。
第#1步:安装Tesseract
为了使用Tesseract库,首先需要在我们的系统上安装它。
对于macOS用户,使用Homebrew来安装Tesseract:
$ brew install tesseract
如果是Ubuntu操作系统,使用apt-get
安装Tesseract OCR:
$ sudo apt install tesseract-ocr
对于Windows,可以参阅Tesseract文档。
第#2步:验证是否已安装Tesseract
请执行以下命令验证计算机上是否已成功安装Tesseract:
$ tesseract -v
tesseract 3.05.00
leptonica-1.74.1
libjpeg 8d : libpng 1.6.29 : libtiff 4.0.7 : zlib 1.2.8