本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数,以及gImageReader图形界面,并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果。主要包括以下几个方面:
- Tesseract-OCR概述
- Tesseract的下载安装
- Tesseract的运行参数
- gImageReader的图形界面
本文使用的软件版本:
- Ubuntu 20.04(focal)
- Tesseract-ocr 4.00
- gImageReader 3.3.1
1 Tesseract-OCR概述
Tesseract是一个开源文本识别(OCR)引擎,最初在1985年至1994年间由惠普实验室开发,1996年进行了一些修改后将其移植到Windows系统,1998年进行了一些C++化。2005年,惠普对Tesseract进行了开源。从2006年到2018年11月由谷歌进行开发。
Tesseract在Apache2.0许可下免费使用,目前的官方发布版本为4.1.1,当前稳定的主分支5.0.0版从2021年11月30日起正在开发过程中。根据Apache许可2.0的条款,Tesseract可以在自己的项目中使用,可以为各种目标进行编译,包括安卓和iPhone。
Tesseract支持UTF-8,可识别100多种语言。Tesseract支持多种输出格式:纯文本、hOCR(HTML)、PDF、仅不可见文本的PDF、TSV。在很多情况下&