[字符识别系列][一] 字符识别中的图像归一化算法简介

最新推荐文章于 2024-10-09 18:29:25 发布

UnilVision

最新推荐文章于 2024-10-09 18:29:25 发布

阅读量5.8k

点赞数 2

分类专栏：二值图像字符识别文章标签：图像处理字符识别二值图像字符归一化

本文链接：https://blog.csdn.net/UnilVision/article/details/8624606

版权

二值图像同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

字符识别

1 篇文章 0 订阅

订阅专栏

本文介绍3种基本的字符形状归一化算法(Character Shape Normalization)。字符归一化是光学字符识别中的一个子步骤，给定一个字符区域，我们要做的就是将该区域内的字符归一化到一个标准模板大小，然后才能提取特征，并送给分类器做具体的识别。好的归一化算法可以尽量提高后续特征提取在同一类内的一致性。

先来看一个例子，假如上帝拥有一个完美的字符归一化算法，那么他将可以做到如下所示的效果：

图1，完美的归一化：左边为原始字符区域，右边为归一化后的结果。

如果说我们能做到上述结果，那么也就无需再做特征提取，也无需再做训练，而只需简单的模板匹配即可得到100%准确的分类结果。可以看到，上述算法的能力在于：

1. 归一化到标准模板大小

2. 倾斜校正

3. 笔画宽度归一化

4. 字形归一化

可惜的是，今天介绍的几种常见算法仅能保证第1点的实现，而2，3则只能实现部分。至于4，就让后续的特征提取去弥补吧。言归正传，3个算法分别是：线性归一化算法，基于图像矩的归一化以及非线性归一化算法。

按惯例，3个算法的标准c实现可在：

https://github.com/UnilVision/visionbase/tree/master/ocr/baseline/normalization找到。希望对大家有所帮助。

线性归一化：线性归一化算法就是一个标准的线性采样过程，采用线性插值获得最终的图像结果。在我们的实现中，使用反向计算的方式：

$x = \alpha x' , y = \beta y'$

其中 $\alpha$ ， $\beta$ 为长和宽的比值。

对应代码中的函数为：

void backward_linear(unsigned char* src, int src_wid, int src_hei, int src_widstep,
					 CHARECT_t* region,
					 unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
					 int ratio_preserve_func);

图像矩归一化：我们可以通过图像矩来预先校正字符的倾斜度，并通过矩来获得字体的实际大小[w1, h1]及中心位置[xc, yc]。归一化的原始区域被修改为

[xc-w1/2, xc+w1/2, yc-h1/2, yc+h1/2]。其计算方法为：

$x_c = \frac{m10}{m00}, y_c = \frac{m01}{m00}$

$w=\gamma \sqrt{\frac{\mu_{20}}{m_{00}}}, h = \gamma \sqrt{\frac{\mu_{02}}{m_{00}}}$

$\gamma$ 是一个经验值，一般取4。

其中图像矩的计算方法：

$\mu_{pq}=\sum_{x}\sum_{y}(x-x_c)^p (y-y_c)^q f(x,y)$

$m_{pq}=\sum_{x}\sum_{y}x^p y^q f(x,y)$

在找到新的区域[xc-w1/2, xc+w1/2, yc-h1/2, yc+h1/2]后，后续即调用线性归一化算法即可。对应代码中的实现为：

void backward_moment(unsigned char* src, int src_wid, int src_hei, int src_widstep,
					 CHARECT_t* region,
					 unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
					 int ratio_preserve_func);

图像矩倾斜校正：利用图像矩，我们可以找到字符的倾斜角 $\theta$ ：

$\tan\theta=\frac{\mu_{11}}{\mu_{02}}$

采样计算方式为：

$x=x'+(y-y_c)\tan\theta$

$y=y'$

注意这里我们仅调整x的位置以保证图像的中心仍然处于原始的xc,yc。其实现对于：

// slant correction
// Note>> (dst_wid, dst_hei) must equal to (region.width, region.height)
void backward_moment_slantcorrection(unsigned char* src, int src_wid, int src_hei, int src_widstep,
				     CHARECT_t* region,
				     unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep);

通常倾斜校正会放在归一化之前，已获得更好的效果。

非线性归一化：这里实现的是Jun Tsukumo在1988年提出的一个经典算法（原论文名称为Classification of Handprinted Chinese Characters Using Non-linear Normalization and Correlation Methods）。作者的思路是希望每一行，每一列的背景区域都可以平均分布。

为此，他首先为每个像素在x，y方向分别定义了个概率密度函数： $d_x(x, y)$ 以及 $d_y(x, y)$ 。这两个函数的计算方法是：

如果（x，y）是一个属于字符区域的像素，那么都取一个极小值（在我们的实现中，这个值是0.001f，调整这个参数可以引起归一化后笔画的粗细变化）。

如果（x，y）是背景区域像素，那么:

$d_x(x, y) = \frac{1}{\omega_x +w1}$

$d_y(x, y) = \frac{1}{\omega_y +h1}$

其中 $\omega_x$ 和 $\omega_y$ 分别是当前像素所处x方向背景像素的run-length和y方向的run-length。有了这两个密度函数，定义：

$p_x(x)=\frac{\sum_{y}d_x(x,y)}{\sum_{x}\sum_{y}d_x(x,y)}$

$p_y(y)=\frac{\sum_{x}d_y(x,y)}{\sum_{x}\sum_{y}d_y(x,y)}$

这里px和py就是归一化后的投影直方图了，为了在归一化后的图像中让px和py平均分布，引入两个函数hx，hy：

$h_x(x)=\sum_{i=0}^{x}p_x(i)$

$h_y(y)=\sum_{j=0}^{y}p_y(j)$

通过前向映射采样即可实现归一化操作：

$x' = w_2 h_x(x)$

$y' = h_2 h_y(y)$

注意这里与前两个算法的不同之处，前向映射是将当前图像的某个像素映射到归一化的图像中。而反向映射则是将归一化的图像中的某个像素位置映射到原图像中。

非线性归一化的实现对应：

void forward_nonlinear_1d(unsigned char* src, int src_wid, int src_hei, int src_widstep,
						  CHARECT_t* region,
						  unsigned char* dst, int dst_wid, int dst_hei, int dst_widstep,
						  int ratio_preserve_func);

参考结果：

最后看下各个算法的结果：