MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition
这篇论文提出了自然场景下弯曲文字识别的一种网络MORAN。
MORAN 由两个部分组成:一个是弯曲矫正网络MORN,一个是识别网络ASRN。
弯曲矫正网络MORN
MORN(Multi-Object Rectification Network)网络定义了一个从输入图像坐标(x1,y1)到输出图像坐标(x2,y2)的可微分映射。可微保证了可用过梯度方法训练。
映射关系为:
x2=x1+ox1
y2=y1+oy1
(ox1,ox2)为输入图像(x1,y1)上的偏移坐标。
因此,通过矫正后输入图的(x1,y1)点的像素变为输出图的(x2,y2)点的像素。
其中由两点注意:
- 矫正之前(x2,y2)scale 到输出图像大小范围内,文中输入和输出大小一样。
- (x2,y2)不是整数且分布不均匀,所以需要二至插入(bilinear interpolat