Tesseract-OCR入门使用（2）-VS2010调用API

最新推荐文章于 2025-04-08 14:21:51 发布

原创最新推荐文章于 2025-04-08 14:21:51 发布

· 9.2k 阅读

15 ·

版权

文章标签：

#OCR #Tesseract #Google #api #vc

Tesseract-OCR入门使用同时被 2 个专栏收录

3 篇文章

订阅专栏

Tesseract-OCR入门使用

3 篇文章

订阅专栏

本系列简单介绍 Tesseract-OCR 3.x版本如何上手使用，只适用于入门级别。

1.DLL的获取

2.环境配置

3.调用API

4.关于API

1.DLL获取

Tesseract-OCR除了提供命令行方式调用（具体看参考《 Tesseract-OCR入门使用（1）-安装包获取和命令行调用》），还支持API方式的调用。

不过支持API的DLL并未包含在常见的安装包中，需要另行获取。

下载地址:tesseract-3.02.02-win32-lib-include-dirs(网上很多链接都指向Google，但是目前已经不能使用，目前建议直接在CSDN上下载)

PS：在使用后发现缺失 liblept168.dll文件，可以从Tesseract-OCR在VS2010下调用API所需要的dll文件下载

2.环境配置

想要使用API，就需要在工程中引入其DLL，具体需要

step1 将下载的include文件夹和lib文件夹拷贝至相应目录（只要能找到即可）

step2 引用以下.h文件和.lib文件

#include "baseapi.h"

#include "strngs.h"

#pragma comment(lib,"../../../Lib/tesseract_302/lib/libtesseract302.lib")

step3 将识依赖的文件拷贝至运行目录（如Debug，Release等）

3.调用API

本文只设计最基本的调用，因此代码非常简单

tesseract::TessBaseAPI  api;  
	api.Init(NULL, "eng", tesseract::OEM_DEFAULT);  //初始化，设置语言包，中文简体：chi_sim;英文：eng；也可以自己训练语言包
	STRING text_out;  
	if (!api.ProcessPages(chDst, NULL, 0, &text_out))  
	{  
		//return 0;  
		AfxMessageBox(L"api error");
	}  
	delete chDst;

PS：因为本文采用MFC作为测试环境，代码还包含字符类型转换以及一些简单MFC API，但是与Tesseract无关，因此就不做说明。

4.关于API

其实 Tesseract-OCR的API功能还算全面，本文篇幅有限，就不再一一说明，具体可参考API examples

而且从api看来Tesseract-OCR是有规划版面分析的，虽然现在没啥用。

以下是完成后的Tesseract-OCR API调用Demo，是不是比命令行方便很多：)