使用python进行图片的文字识别
安装 Tesseract OCR
-
Tesseract OCR 是一款由 Google 团队开发的开源 OCR(Optical Character Recognition,光学字符识别)引擎,用于将图片、PDF 等格式中的文本转换为可编辑的文本格式。自 1985 年首次发布以来,它已经经历了多个版本和改进,并成为目前最受欢迎的 OCR 引擎之一。
Tesseract OCR 支持多种语言,包括英语、中文、日语、俄语等等,而且具有较高的准确率和稳定性,尤其在处理大量文字的场景下表现突出。同时,该引擎还支持多线程处理,可以有效地提高识别速度。
-
Windows安装包: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-5.3.1.20230401.exe
-
注意: 这是Windows64位系统安装包.
tesseract源码的GitHub地址:tesseract-ocr/tesseract: Tesseract Open Source OCR Engine ,有能力的可以自行编译源代码
安装过程
-
双击
tesseract-ocr-w64-setup-5.3.1.20230401.exe
安装包进行安装首先是选择语言界面,默认是英文, 没有中文,有其他国家的语言可以选。
-
点
Next
-
点
I Agree
-
默认为这台电脑进行安装
-
因为需要在 Tesseract OCR 中识别中文简体等非英语文本,所有需要安装相应的语言数据。
可以只安装特定语言, 比如中文简体
-
选择安装路径, 比如我选的是
D:\Tesseract-OCR
,待会配系统环境变量可能会用到这个安装路径。 -
创建快捷图标
-
安装中
-
Next
-
Finish
-
可以在开始菜单栏中看到
Console
-
点进去就能直接进入控制台了
-
输入:
tesseract --help
试试因为我们不是直接使用命令去操作这个
tesseract
, 而是使用python去操作它, 因此这个命令行就不用管他, 可以关掉。接下来为了让python能直接使用它, 需要检查系统的环境变量有没有设置好。在Windows操作系统中,环境变量用于存储一些系统或用户自定义的参数和路径信息。这些参数和路径信息可以帮助操作系统找到系统中安装的软件和程序,以便正确地运行它们。
-
重新开个命令窗口
输入
tesseract -v
查看版本号,你可