【论文笔记】Robust Scene Text Recognition with Automatic Rectification

RARE模型结合STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)实现了对不规则场景文本的端到端识别。STN通过定位网络、网格生成器和采样器进行文本矫正,SRN则利用注意力机制的编码器-解码器结构进行序列识别。模型训练使用8百万的合成样本,并在测试阶段通过前序树的近似查询方法加速词典约束下的识别过程。
摘要由CSDN通过智能技术生成

Shi B, Wang X, Lv P, et al. Robust Scene Text Recognition with Automatic Rectification[J]. arXiv preprint arXiv:1603.03915, 2016.

  文章提出RARE模型实现对不规则文本的end-to-end文字识别,RARE由STN(Spatial Transformer Network)和SRN(Sequence Recognition Network)组成。STN用于对输入的不规则文本进行矫正,得到形状规则的文本作为SRN的输入,SRN是一个基于注意力机制的网络结构,实现sequence to sequence的文本识别。主要从以下几方面记录。

  • STN
  • SRN
  • 模型训练
  • 测试阶段

1. STN(Spatial Transformer Network)

STN主要包括三个部分:1) Localization network; 2) Grid Generator; 3) Sampler,结构如下图所示:


这里写图片描述

1) Localization network

  该网络在没有任何标注数据的前提下,基于图像内容定位到基准点的位置。文中该网络结构与传统的CNN网络结构相似:4个卷积层,每个卷积层后接一个2*2的max-pooling层,再接2个1024维的全链接层,最后输出为40维的向量。此处的输出为基准点的坐标,设定基准点个数为 k=20

2) Grid Generator和Sampler

  由于Grid Generator和Sampler是配合使用的,所以放在一起简述一下。Grid generator估计出TPS变换参数,生成一个采样网格。基准点和TPS变换如下图所示:


这里写图片描述

  给定 pi 的坐标,计算出 pi 的坐标(这里可能会有疑惑,为什么target图像为已和,而原图像为未知),因为我们的目标是计算target图像的像素值,所以文章固定了基准点在target图像中的位置,再来计算target图像中每个坐标的像素值。得到原图中 pi 的坐标后,在Sampler中, pi

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值