转载：java tessbaseapi,Tesseract--主要API功能介绍

cloudsinn

已于 2022-01-29 00:52:18 修改

阅读量1k

点赞数

分类专栏： Java 图片识别文章标签： java 开发语言

于 2022-01-29 00:49:17 首次发布

原文链接：https://blog.csdn.net/weixin_32083393/article/details/116000340

版权

Java 同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

图片识别

1 篇文章 0 订阅

订阅专栏

tesseract本身代码是由c/c++混编而成的，其中有用的简单的接口函数几乎都是在baseapi.h中。
从其处理过程中，不难得出：
它还需要有一个image处理的类，及相关的方法；这样子，读取图片后，生成image对象，再获取相关的参数；当然还需要有对image对象的读取，版面分析等接口函数；再次，它还定义了很多自身的数据类型，比如：BITS16、array_record、BLOCK、IMAGE等；而且它具有自学的能力。
现在，我们从头有调理地简单讲述一下子：
(1)tesseract::TessBaseAPI，基础的接口函数，包含了初始化，简单的处理图片文字信息，版面分析的结果体等。
(2)IMAGE，只是一个类，里边封装了相关的图片操作，包括图片的读取，图片参数信息的获取等。
(3)其他，包括数据类型声明，相关结构体声明，跨平台处理，命令端参数提取等。

我们在实际中用到的就是前两个里边的东西。

声明：以下函数皆是在tesseract::TessBaseAPI域下
1: SetImage: 为Tesseract 提供待识别的图片。
函数声明：

void tesseract::TessBaseAPI::SetImage
(const unsigned char * imagedata,int width,int height,int bytes_per_pixel,int bytes_per_line)

2：SetSourceResolution: 设置源图像的分辨率(像素每英尺)，可以计算最终的字体大小信息。 SetImage之后调用此函数。
函数声明：

void tesseract::TessBaseAPI::SetSourceResolution(int ppi)

3：SetRectangle: 将识别限制到图像的一个子矩形区域，SetImage 之后调用此函数。每一次该函数调用后将清除识别结果，以便同一张图像可以进行多矩形区域的识别。
函数声明：

void tesseract::TessBaseAPI::SetRectangle(int left,int top,int width,int height)

4：SetThresholder: 在一些特殊的情况下，通常是产生一个阈值器类的子类的时候，该函数可以提供一个不同的阈值器，阈值器可能会随着图片和设定预装入，或者被随后设定。Tesseract 拥有阈值器支配权，并在它被替换或是API被析构后删除。
函数声明：

void tesseract::TessBaseAPI::SetThresholder(ImageThresholder* thresholder)

5：GetThresholdedImage: 从Tesseract获得内部阈值图像的拷贝，在SetImage 或者TesseractRect 之后可以随时别调用。注意，只有安装了Leptonica之后才可使用。
函数声明：

Pix * tesseract::TessBaseAPI::GetThresholdedImage()

6：GetRegions: 以aleptonica-style Boxa, Pixa pair 格式获得页面结构分析的结果，在Recognize前后均可被调用。
函数声明：

Boxa * tesseract::TessBaseAPI::GetRegions(Pixa ** pixa)

7：GetTextlines：以aleptonica-style Boxa, Pixa pair 格式获取文本行，在Recognize前后均可被调用。如果blockids(block数目) 是空的话，每行block- id返回每行一个元素的数组，使用之后被删除。
函数声明：

Boxa * tesseract::TessBaseAPI::GetTextlines(Pixa ** pixa,int ** blockids)

8：GetStrips：以aleptonica-style Boxa, Pixa pair 格式获取图像区域的文本行和条形区域，方便后面非矩形区域的处理。在Recognize前后均可被调用
函数声明：

Boxa * tesseract::TessBaseAPI::GetStrips(Pixa ** pixa,int ** blockids)

9：GetWords：以aleptonica-style Boxa, Pixa pair 格式获取图像区域的文字，在Recognize前后均可被调用。
函数声明：

Boxa * tesseract::TessBaseAPI::GetWords(Pixa ** pixa)

10：GetConnectedComponents：在页面分析之后识别之间，以aleptonica-style Boxa, Pixa pair 格式获得独立连通的文本区域，在Recognize前后均可被调用。
函数声明：

Boxa * tesseract::TessBaseAPI::GetConnectedComponents(Pixa ** pixa)

11：GetComponentImages：以aleptonica-style Boxa, Pixa pair 格式获得制定级别的元素(block，textline, word)，在Recognize前后均可被调用。果blockids(block数目) 是空的话，每行block- id返回每行一个元素的数组，使用之后被删除。如果text_only 为真，只有text可被返回。
函数声明：

Boxa * tesseract::TessBaseAPI::GetComponentImages(int level,bool text_only,Pixa ** pixa,int ** blockids)

12：GetThresholdedImageScaleFactor
函数声明：

int tesseract::TessBaseAPI::GetThresholdedImageScaleFactor()

13：DumpPGM: 将内部二值图像放到PGM文件中。
函数声明：

void tesseract::TessBaseAPI::DumpPGM(const char ** filename)

14：AnalyseLayout: 以SetPageSegMode设定的模式进行页面结构分析,返回一个(iterator),错误返回为空。Iterator 使用后必须删除。注意：该函数指向TessBaseAPI 类内部的数据，因此必须在TessBaseAPI 存在的情况下才可被调用。不能被改变内部PAGE_RES的 Init, SetImage, Recognize, Clear, End DetectOS或者其他调用。
函数声明：

PageIterator * tesseract::TessBaseAPI::AnalyseLayout()

15：Recognize: 识别来自SetAndThresholdImage的图像，产生Tesseract 内部结构数据，成功返回0，如果需要，下面的Get*Tex函数会调用它。识别完成后，在SetImage之前，输出都会保持在内部。
函数声明：

int tesseract::TessBaseAPI::Recognize(ETEXT_DESC* monitor)

16：RecognizeForChopTest: 检索来自SetAndThresholdImage(), Recognize() or TesseractRect()的信息(在需要的情况下隐式调用Recognize)。对Recognize 变化一测试chopper.
函数声明：

int tesseract::TessBaseAPI::RecognizeForChopTest(ETEXT_DESC* monitor)

17：ProcessPages: 识别指定文件的所有页面，文件格式为(a multi-page tiff or list of filenames, or single image), 并且根据参数(tessedit_create_boxfile, tessedit_make_boxes_from_boxes, tessedit_write_unlv, tessedit_create_hocr.)得到合适的文本。在输入文件的每一页运行ProcessPage，输入文件可以是(a multi-page tiff, single-page other file format, or a plain text list of images to read),返回值放在text_out中。如果tessedit_page_number 非负，程序将会在其所代表那一页开始。运行错误返回false. 如果程序暂停在某一页timeout_millisec (非负) 时间终止程序，或者由于某些原因一些页面处理失败，该页面将会以retry_config 的配置文件重新处理。
函数声明：

bool tesseract::TessBaseAPI::ProcessPages(const char ** filename,const char ** retry_config,int timeout_millisec,text_out)

18：ProcessPage: 为 ProcessPages进行单页面识别。Text放到text_out中， pix是文件名，page_index是边缘处理后的元数据，比如box文件，或者hOCR格式文件。
函数声明：

bool tesseract::TessBaseAPI::ProcessPage
(Pix ** pix,int page_index,const char ** filename,const char ** retry_config,int timeout_millisec,text_out)

19：GetIterator: 为 LayoutAnalysis and/or Recognize运行结果获取读取顺序的迭代器(iterator)，使用之后删除。
函数声明：

ResultIterator * tesseract::TessBaseAPI::GetIterator()

20：GetMutableIterator: 为 LayoutAnalysis and/or Recognize运行结果获取可变的迭代器(iterator)，使用之后删除。
函数声明：

MutableIterator * tesseract::TessBaseAPI::GetMutableIterator()

21：GetUTF8Text: 识别的文本被返回为字符指针，以UTF8编码(must be freed with the delete [] operator)。从内部数据结构中获得文本字符串。
函数声明：

char * tesseract::TessBaseAPI::GetUTF8Text()

22：GetHOCRText
函数声明：

char * tesseract::TessBaseAPI::GetHOCRText(int page_number)

感谢原文链接：java tessbaseapi,Tesseract–主要API功能介绍

cloudsinn

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录