一、OCR
OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。
二、Tesseract
目前最流行的开源OCR软件就是*Tesseract
*。
Tesseract
是一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI
)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
Tesseract-ocr
Github
地址如下:
https://github.com/tesseract-ocr/tesseract
三、Windows编译安装Tesseract
1、准备工作
科学上网,否则一些文件下载不了(要从github
下载依赖文件)。
2、安装vcpkg
**vcpkg
**是Microsoft
的跨平台开源软件包管理器,极大地简化了 Windows
、Linux
和 macOS
上第三方库的购置与安装。如果项目要使用第三方库,建议通过 vcpkg
来安装它们。vcpkg
同时支持开源和专有库。
① 获取vcpkg源码
Vcpkg的官方源码站点为:microsoft/vcpkg: C++ Library Manager for Windows, Linux, and MacOS (github.com)
git clone https://github.com/microsoft/vcpkg
② 编译vcpkg源码
Windows
平台:在cmd
中执行Vcpkg
工程目录下的“bootstrap-vcpkg.bat”
命令,编译好后会在同级目录下生成vcpkg.exe
文件。
Linux
平台:在命令行中执行在vcpkg
工程目录下“sudo bash ./ bootstrap-vcpkg.sh”
命令,会生成一个可执行文件vcpkg
。定义环境变量 VCPKG_ROOT="/vcpkg"
③ 添加到path环境变量
将 vcpkg.exe
路径添加到系统path环境变量中,将该源码目录添加至windows的系统用户的path环境变量中。
④ 安装示例
Windows
安装示例如下:
3、编译安装Tesseract库
① 下载Tesseract源码
从 github
获取 tesseract
源码:
git clone https://github.com/tesseract-ocr/tesseract
② 编译Tesseract源码
命令行切换至 tesseract 源码目录下,执行如下命令:
- 编译生成静态库api命令
vcpkg install tesseract:x64-windows-static
- 编译生成动态库api命令
vcpkg install tesseract:x64-windows
然后等它全部下载、配置、编译完成即可。完成后,命令行类似这样:
- 执行过程:
Microsoft Windows [版本 10.0.20348.169]
(c) Microsoft Corporation。保留所有权利。
C:\Users\Administrator