字符识别软件tesseract-ocr v5.1.0下载安装及简单使用（Win10）

Alexabc3000

于 2022-05-25 16:13:03 发布

阅读量3k

点赞数

文章标签：字符识别 OCR tesseract

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Alexabc3000/article/details/124968169

版权

本文介绍如何从GitHub下载并安装Tesseract OCR引擎，包括设置安装路径及通过命令行进行基本的文字识别操作。此外，还探讨了如何解决中文识别的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Tesseract是github上的OCR（optical character recognition，光学字符识别）开源库，可将包含文本的图像识别为计算机文字（计算机黑白点阵）。图像中的文本一般为印刷体文本。

下载

GitHub网址：

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

点击页面链接“Install Tesseract via pre-built binary package”，进入网页 Tesseract User Manual | tessdoc

最终下载网址： https://github.com/UB-Mannheim/tesseract/wiki

点击下载得到文件“tesseract-ocr-w64-setup-v5.1.0.20220510.exe”，

安装

以管理员身份运行下载的exe文件，即开始安装。

没有中文，只好选择英文。

安装目录指定为： d:\Programs\Tesseract-OCR

点击“Finish”按钮，即可完成安装。

在开始菜单中新增了下图所示的条目：

安装目录中的文件及文件夹如下图所示

简单的使用

命令行启动

从开始菜单的Tesseract-OCR文件夹中，点击Console，启动命令行窗口。键入命令tesseract，会显示相关提示信息：

可使用命令“tesseract --help-extra”显示更详细的帮助信息。

基本语法命令

进行文字识别的基本命令语法如下：

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

详细用法可参考网页： Command Line Usage | tessdoc

识别图片中的英文字母和数字

将图片

保存为文件“D:\temp\abcdef.png”，使用命令

tesseract d:\temp\abcdef.png stdout

进行识别，结果如下图所示：

可以看出，识别程序的识别结果正确。

不能识别图片中的简体中文（因训练好的数据不能下载）

上述软件安装过程中，并未安装简体中文的训练数据集。

已有的训练数据集可使用命令“tesseract --list-langs”查看，也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。

为了识别简体中文，需要从“ https://github.com/tesseract-ocr/tessdata_best ”下载相关文件，如下图所示：

点击上图中红框内的文件，进入网页 “ https://github.com/tesseract-ocr/tessdata_best/blob/main/chi_sim.traineddata ”，

但是不知道为什么不能下载，所以，暂时不能识别中文。

相关参考网页：

使用Tesseract做文字识别（OCR） - 知乎

基于tesseract-OCR进行中文识别 - 走看看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Alexabc3000 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。