tesseract识别OCR
Tesseract识别OCR的基本步骤
参考文章:https://www.jianshu.com/p/0a3386227981
1.下载Tesseract源码包,编译
源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。
2.配置环境
配置好需要的库文件,即可使用libtesseract的C/C++接口来构建自己的程序。
3.示例测试
#include <baseapi.h>
#include <allheaders.h>
int main()
{
char *outText;
tesseract::TessBaseAPI *api = new tesseract::TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api->Init(NULL, "eng")){
fprintf(stderr, "Could not initialize tesseract.\n");
exit(1);
}
// Open input image with leptonica library
Pix *image = pixRead("XXXXXXXX\\phototest.tif");
api->SetImage(image);
// Get OCR result
outText = api->GetUTF8Text();
printf("OCR output:\n%s", outText);
api->End();
delete [] outText;
pixDestroy(&image);
return 0;
}
运行后,输出结果如下: