在使用Tesseract4-OCR时,它的最终识别图像类型为PIX。
有的图片质量不好,需要先做预处理。然而,PIX我们大多数人都不熟悉。
是否可以先用opencv来读入图片并做预处理,在识别之前再把图像转换为PIX呢?
经过大量百度,只找到一位外国朋友写的,Mat转PIX,亲测可用。
晒代码:
PIX* cvtMat2PIX(Mat imgGray)
{
int cols = imgGray.cols;
int rows = imgGray.rows;
PIX *pixS = pixCreate(cols, rows, 8);
for (int i = 0; i < rows; i++)
for (int j = 0; j < cols; j++)
pixSetPixel(pixS, j, i, (l_uint32)imgGray.at<uchar>(i, j));
return pixS;
}
另外,看Tesseract的源码,在读入PIX的时候默认将图片转换为灰度图,因此上面代码输入参数为灰度图。