基于STN的场景文字识别框架整理

最新推荐文章于 2024-08-16 09:24:35 发布

Liu, Xu

最新推荐文章于 2024-08-16 09:24:35 发布

阅读量3.2k

点赞数 2

分类专栏：场景文字识别

本文链接：https://blog.csdn.net/francislucien2017/article/details/103299995

版权

场景文字识别专栏收录该内容

6 篇文章 3 订阅

订阅专栏

当前场景文字识别较为主流的方法分为 attention mechanism（代表：Show, Attend and Read; Transformer-based attention; 各种各样的 2D Attention）和 STN + CRNN / DenseNet + CTC，二者的主要区别是一个是在解码前给文字区域赋予较高的权重，聚焦于文本信息，弱化无关背景信息，另一个是在一开始修正曲形的文字得到水平规整的文字进行识别；

基于注意力机制的几篇前面博文都有涉及，感兴趣可以参考之前的文章：

由于最近组里相关项目涉及到基于 STN 的文字识别算法框架，所以大概总结一下相关模型结构。

基本框架：

intputs --> STN --> Feture Extraction （CNN） --> Sequence Modeling(optional) --> Prediction（Decoder） --> outputs

STN：修正曲形文字为水平规整文字；
CNN：提取图像特征；
Sequence Modeling：建立encoder得到的特征图的上下文关联（contextual connection）；
Decoder：输出最终的文字字符；

STN: Spatial Trasformation Network

1. 总体概览

以较为经典的 TPS-STN 为例，定位网（localization network）络定位出一系列基准点（fiducial points），格点生成器（grid generator）依据这些基准点生成对应的一系列采样点（sampling grid），采样器通过匹配两组基准点和变换矩阵生成基于原图文字区域的格点网络，最后通过双线性差值得到修正的图像，一般和原图尺寸相同；

2. 定位网络 localization network

通过CNN回归一系列坐标点（x-y），通过激活函数 tanh 归一化为[-1, 1]，共 2K 个值，确定 K 个基准点，记为；

注意 K 为常亮；

3. 格点生成器 grid generator

首先定义另一组 K 个基准点（base fiducial points） C^' , C^' 均匀分布在修正的照片的上下两侧，下图中左边绿色的点是，右边的蓝色的点就是 C^' ；通过变化矩阵T完成从左图到有图的变化；

TPS 变换可以用矩阵表示：， $T \in R^{2 \times (K+3)}$ ；

其中为常量；

， $d_{i,k}$ 表示 $p^{'}_{i}$ 和 $C^{'}_k$ 的欧式距离；

$P^{'}=\left \{ \left. p^{'}_{i} \right \} \right., i =1, 2, ..N$ ， $p^{'}_i$ 表示输出图像的每一个像素点的坐标（x, y）, 为输出（输入）图像像素个数；

$P=\left \{ \left. p_i \right \} \right., i =1, 2, ..N$ , p_i 表示格点生成器对应原图中生成的格点坐标（x, y）, 为输出（输入）图像像素个数；

是通过格点生成器生成的 $I^'$ 上的像素值，

4. 采样器 sampling grid

$I{^'}=V(P, I)$ ，表示双线性差值，得到从输入图像到输出图像的变换；

5. 总结

整个 TPS-STN 结构是可微的，所以可以通过反向传播反传梯度自动学习，是一个无监督的过程，可以应用在倾斜或小曲率的曲形文字修正上。

CRNN：Convolutional-Recurrent Network

Encoder: CNN+Sequence Modeling, CNN 的选择有很多，目前效果比较好的就是 ResNet 和 DenseNet；Sequence Modeling 当前比较主流的做法就是使用 BiLSTM 进行序列建模，关联特征向量的上下文信息；这部分没太多好说的，要注意的是 DenseNet 的中间层特征图是跨层连接，所以具有全局感受野，此外其网络规模相对同尺度 ResNet 更小，但训练更占显存；

CTC：Connectionist temporal classification

选用 CTC 进行预测输出的话，其输入必为列方向上一维的特征向量，引入blank空白字符，对于每一列向量预测一个字符，最后通过 beta-decode 删除空白字符和重复字符；

作用：切分输入序列的单个词以及整合输出序列；
优点：
- 多个连续文字，作为一个输入；
- 整合 RNN 输出最优序列；
e.g

上图 RNN 每一步的输出其实都是一组概率分布， $p(l|x), l\in Alphebat$ , 对于第一个矩形框，输出可能是 $p(l='h'|x)=0.5, \, p(l='m'|x)=0.3$ ；

损失函数：Lebal Error Rate (LER)，其中涉及到 ED (Edit Distance, 量化两个字符串的相异性)的概念。

定义：

$LER(h, S')=\frac{1}{|S'|} \sum_{(x,z)\in S'}\frac{ED(h(x), z)}{|z|}$
CTC 的 softmax 输出类别有 L+1 种，1 为空白分隔符（L为字符类别数目）；
同一种输入对应的多种输出可能会有多种形式：把空格和连续重复的字母去掉，即 $l=B(\pi), |l|\leqslant T$ ；
预测标签有很多备选的输出序列，所以预测标签 ll 的概率公式： $p(l|x)=\sum_{\pi \in B^{-1}(l)}p(\pi |x)$
输出模型构建：
- 搜索最优前缀：找到第一个字母的最优输出，然后找到以这个字母为开头的子串，并在子串中找到下一个最优的子母，依次下去。
- 启发式：用预测出来的空格把预测结果划分成几段，且预测成空格的概率必须大于一个阈值（强条件），再对每一段用最优前缀的方法；