Tesseract是github上的OCR(optical character recognition,光学字符识别)开源库,可将包含文本的图像识别为计算机文字(计算机黑白点阵)。图像中的文本一般为印刷体文本。
下载
GitHub网址:
GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
点击页面链接“Install Tesseract via pre-built binary package”,进入网页 Tesseract User Manual | tessdoc
最终下载网址: https://github.com/UB-Mannheim/tesseract/wiki
点击下载得到文件“tesseract-ocr-w64-setup-v5.1.0.20220510.exe”,
安装
以管理员身份运行下载的exe文件,即开始安装。
没有中文,只好选择英文。
安装目录指定为: d:\Programs\Tesseract-OCR
点击“Finish”按钮,即可完成安装。
在开始菜单中新增了下图所示的条目:
安装目录中的文件及文件夹如下图所示
简单的使用
命令行启动
从开始菜单的Tesseract-OCR文件夹中,点击Console,启动命令行窗口。键入命令tesseract,会显示相关提示信息:
可使用命令“tesseract --help-extra”显示更详细的帮助信息。
基本语法命令
进行文字识别的基本命令语法如下:
tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]
详细用法可参考网页: Command Line Usage | tessdoc
识别图片中的英文字母和数字
将图片
保存为文件“D:\temp\abcdef.png”,使用命令
tesseract d:\temp\abcdef.png stdout
进行识别,结果如下图所示:
可以看出,识别程序的识别结果正确。
不能识别图片中的简体中文(因训练好的数据不能下载)
上述软件安装过程中,并未安装简体中文的训练数据集。
已有的训练数据集可使用命令“tesseract --list-langs”查看,也可直接在目录“D:\Programs\Tesseract-OCR\tessdata”中查看扩展名为traineddata的文件。
为了识别简体中文,需要从“ https://github.com/tesseract-ocr/tessdata_best ”下载相关文件,如下图所示:
点击上图中红框内的文件,进入网页 “ https://github.com/tesseract-ocr/tessdata_best/blob/main/chi_sim.traineddata ”,
但是不知道为什么不能下载,所以,暂时不能识别中文。
相关参考网页: