Tesseract-OCR对图像和PDF进行光学文字识别

本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数,以及gImageReader图形界面,并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果。主要包括以下几个方面:

  1. Tesseract-OCR概述
  2. Tesseract的下载安装
  3. Tesseract的运行参数
  4. gImageReader的图形界面

本文使用的软件版本:

  1. Ubuntu 20.04(focal)
  2. Tesseract-ocr 4.00
  3. gImageReader 3.3.1

1 Tesseract-OCR概述

Tesseract是一个开源文本识别(OCR)引擎,最初在1985年至1994年间由惠普实验室开发,1996年进行了一些修改后将其移植到Windows系统,1998年进行了一些C++化。2005年,惠普对Tesseract进行了开源。从2006年到2018年11月由谷歌进行开发。

Tesseract在Apache2.0许可下免费使用,目前的官方发布版本为4.1.1,当前稳定的主分支5.0.0版从2021年11月30日起正在开发过程中。根据Apache许可2.0的条款,Tesseract可以在自己的项目中使用,可以为各种目标进行编译,包括安卓和iPhone。

Tesseract支持UTF-8,可识别100多种语言。Tesseract支持多种输出格式:纯文本、hOCR(HTML)、PDF、仅不可见文本的PDF、TSV。在很多情况下&

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值