【论文笔记】Robust Scene Text Recognition with Automatic Rectification-CSDN博客

本文链接：https://blog.csdn.net/rabbithui/article/details/78853649

RARE模型结合STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)实现了对不规则场景文本的端到端识别。STN通过定位网络、网格生成器和采样器进行文本矫正，SRN则利用注意力机制的编码器-解码器结构进行序列识别。模型训练使用8百万的合成样本，并在测试阶段通过前序树的近似查询方法加速词典约束下的识别过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv preprint arXiv:1603.03915, 2016.

　　文章提出RARE模型实现对不规则文本的end-to-end文字识别，RARE由STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)组成。STN用于对输入的不规则文本进行矫正，得到形状规则的文本作为SRN的输入，SRN是一个基于注意力机制的网络结构，实现sequence to sequence的文本识别。主要从以下几方面记录。

STN
SRN
模型训练
测试阶段

1. STN(Spatial Transformer Network)

STN主要包括三个部分：1) Localization network; 2) Grid Generator; 3) Sampler，结构如下图所示：

1） Localization network

　　该网络在没有任何标注数据的前提下，基于图像内容定位到基准点的位置。文中该网络结构与传统的CNN网络结构相似：4个卷积层，每个卷积层后接一个2*2的max-pooling层，再接2个1024维的全链接层，最后输出为40维的向量。此处的输出为基准点的坐标，设定基准点个数为 $k=20$ 。

2） Grid Generator和Sampler

　　由于Grid Generator和Sampler是配合使用的，所以放在一起简述一下。Grid generator估计出TPS变换参数，生成一个采样网格。基准点和TPS变换如下图所示:

　　给定 ${p_{i}}'$ 的坐标，计算出 $p_{i}$ 的坐标（这里可能会有疑惑，为什么target图像为已和，而原图像为未知）,因为我们的目标是计算target图像的像素值，所以文章固定了基准点在target图像中的位置，再来计算target图像中每个坐标的像素值。得到原图中 $p_{i}$ 的坐标后，在Sampler中， pi