Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv preprint arXiv:1603.03915, 2016.
文章提出RARE模型实现对不规则文本的end-to-end文字识别,RARE由STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)组成。STN用于对输入的不规则文本进行矫正,得到形状规则的文本作为SRN的输入,SRN是一个基于注意力机制的网络结构,实现sequence to sequence的文本识别。主要从以下几方面记录。
- STN
- SRN
- 模型训练
- 测试阶段
1. STN(Spatial Transformer Network)
STN主要包括三个部分:1) Localization network; 2) Grid Generator; 3) Sampler,结构如下图所示:
1) Localization network
该网络在没有任何标注数据的前提下,基于图像内容定位到基准点的位置。文中该网络结构与传统的CNN网络结构相似:4个卷积层,每个卷积层后接一个2*2的max-pooling层,再接2个1024维的全链接层,最后输出为40维的向量。此处的输出为基准点的坐标,设定基准点个数为 k=20 。
2) Grid Generator和Sampler
由于Grid Generator和Sampler是配合使用的,所以放在一起简述一下。Grid generator估计出TPS变换参数,生成一个采样网格。基准点和TPS变换如下图所示:
给定 pi′ 的坐标,计算出 pi 的坐标(这里可能会有疑惑,为什么target图像为已和,而原图像为未知),因为我们的目标是计算target图像的像素值,所以文章固定了基准点在target图像中的位置,再来计算target图像中每个坐标的像素值。得到原图中 pi 的坐标后,在Sampler中, pi