Tesseract-OCR对图像和PDF进行光学文字识别

最新推荐文章于 2024-04-26 13:54:35 发布

VIP文章程序员猴小萌

最新推荐文章于 2024-04-26 13:54:35 发布

阅读量1.8k

点赞数

分类专栏：操作系统文章标签：人工智能计算机视觉深度学习 lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qlcheng2008/article/details/122471597

版权

本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数，以及gImageReader图形界面，并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果。主要包括以下几个方面：

Tesseract-OCR概述
Tesseract的下载安装
Tesseract的运行参数
gImageReader的图形界面

本文使用的软件版本：

Ubuntu 20.04（focal）
Tesseract-ocr 4.00
gImageReader 3.3.1

1 Tesseract-OCR概述

Tesseract是一个开源文本识别（OCR）引擎，最初在1985年至1994年间由惠普实验室开发，1996年进行了一些修改后将其移植到Windows系统，1998年进行了一些C++化。2005年，惠普对Tesseract进行了开源。从2006年到2018年11月由谷歌进行开发。

Tesseract在Apache2.0许可下免费使用，目前的官方发布版本为4.1.1，当前稳定的主分支5.0.0版从2021年11月30日起正在开发过程中。根据Apache许可2.0的条款，Tesseract可以在自己的项目中使用，可以为各种目标进行编译，包括安卓和iPhone。

Tesseract支持UTF-8，可识别100多种语言。Tesseract支持多种输出格式：纯文本、hOCR(HTML)、PDF、仅不可见文本的PDF、TSV。在很多情况下&

最低0.47元/天解锁文章

程序员猴小萌

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Tesseract-OCR对图像和PDF进行光学文字识别

本文主要介绍Tesseract-OCR光学文字识别应用程序的下载安装、运行参数，以及gImageReader图形界面，并Ubuntu和Windows环境下演示了使用图形界面对PDF和图像文件进行文字识别的效果
复制链接

扫一扫

专栏目录

程序员猴小萌 CSDN认证博客专家 CSDN认证企业博客

码龄15年

35: 原创

10万+: 周排名

25万+: 总排名

17万+: 访问

: 等级

438: 积分

48: 粉丝

57: 获赞

17: 评论

320: 收藏

私信

关注

热门文章

分类专栏

最新评论

Cesium入门（七）：设置影像图层的覆盖范围
qq_51198190: 知道为什么了吗,我的放大之后也会出现边缘拉伸现象
TightVNC实现Ubuntu远程虚拟桌面
清兰煜: 2 TightVNC Server的安装中的代码错了，应该是apt install tightvncserver
Cesium入门（五）：加载WMTS瓦片地图服务
大头不爱吃鱼: 大佬，我想问一下，如何通过点击事件获取WMTS瓦片图层的图层信息啊
GeoServer入门（二）：WMTS图层瓦片切割与调用
m0_58001066: 大佬，问一下如何看切片任务是否完成了，我点击submit后，跳转到GeoWebCache界面，放了一上午没有变化，掉用切片只有一小块地图。大佬，求解？
TightVNC实现Ubuntu远程虚拟桌面
倪偲001: 因为你登录时的被控电脑ip地址不对

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。