字符识别软件tesseract-ocr v5.1.0下载安装及简单使用(Win10)

Tesseract是github上的OCR(optical character recognition,光学字符识别)开源库,可将包含文本的图像识别为计算机文字(计算机黑白点阵)。图像中的文本一般为印刷体文本。

下载

GitHub网址:

GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository) 

 

点击页面链接“Install Tesseract via pre-built binary package”,进入网页 Tesseract User Manual | tessdoc 

 

最终下载网址: https://github.com/UB-Mannheim/tesseract/wiki 

 

点击下载得到文件“tesseract-ocr-w64-setup-v5.1.0.20220510.exe”,

 

安装

以管理员身份运行下载的exe文件,即开始安装。

没有中文,只好选择英文。

 

 

 

 

 

 安装目录指定为: d:\Programs\Tesseract-OCR

 

 

点击“Finish”按钮,即可完成安装。

在开始菜单中新增了下图所示的条目:

安装目录中的文件及文件夹如下图所示

 

简单的使用

命令行启动

从开始菜单的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息:

可使用命令“tesseract --help-extra”显示更详细的帮助信息。

基本语法命令

进行文字识别的基本命令语法如下:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

详细用法可参考网页: Command Line Usage | tessdoc 

识别图片中的英文字母和数字

将图片

保存为文件“D:\temp\abcdef.png”,使用命令

tesseract d:\temp\abcdef.png stdout

进行识别,结果如下图所示:

 

 

可以看出,识别程序的识别结果正确。

不能识别图片中的简体中文(因训练好的数据不能下载)

上述软件安装过程中,并未安装简体中文的训练数据集。

已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。

为了识别简体中文,需要从“ https://github.com/tesseract-ocr/tessdata_best ”下载相关文件,如下图所示:

 

点击上图中红框内的文件,进入网页 “ https://github.com/tesseract-ocr/tessdata_best/blob/main/chi_sim.traineddata  ”,

 

但是不知道为什么不能下载,所以,暂时不能识别中文。

相关参考网页:

使用Tesseract做文字识别(OCR) - 知乎

基于tesseract-OCR进行中文识别 - 走看看

 

 

 

 

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Alexabc3000

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值