SCATTER:Selective Context Attentional Scene Text Recognizer稿

  这是一篇来自亚马逊的文章,对文本识别的方法提出了一种新的思路。
  目前来看,文本识别的方法可以分为两种,一种是基于字符级别的文本识别,另一种则是基于字符串的识别。基于字符的识别,通常使用的都是分割的方法。基于字符串的识别的方法可以分为两种,一种是基于ctc的decoder的方式,另一种就是基于attention的decoder的方式。左边图中的(a)就是目前常用的基于attention decoder的流程图。可以分为四个步骤:第一步,图像的矫正,旋转。第二步,特征提取。第三步,内容建模。最后一步就是解码。而这篇文章的作者的思路就是堆叠网络深度,选择性地解码来获得更好的准确率。
  这个网络结构同样也可以分为四个步骤,第一个步骤,图像使用TPS来进行旋转和矫正,将弯曲的文本变为平直的文本。第二个步骤是视觉特征提取,在这里使用的是29层的resnet。第三部分是一个视觉特征提纯模块,通过一个CTC的decoder来约束这里的视觉特征。之后,进入选择性内容提纯模块。将经过bilstm建模的内容特征和视觉特征结合起来解码。通过堆叠这样的模块来不断提升模块的识别能力。每一个模块在训练的时候,都会有监督信息来监督。最后在inference的时候,单单只是最后一个模块的decoder来decode出最后的结果。
  选择性解码的模块示意图是这样的,它将视觉特征图和内容特征图concat到一起,通过全连接获得attention map之后再用一维attention的方式来解码出最后的结果。
  训练的这个网络使用了三个数据集,分别是mj,sy,和sa。sa就是SAR里面提出来用sy相同的方式来生成数据集。通过这个数据集来解决之后测试集中没有的字符。每个batch里面随机采取40,40和20的结果来训练。
  从结果可以看出,在规则文本和不规则文本能够获得不错的结果。尤其是在不规则的文本上的平均结果获得了最好的结果。下面是一个消融实验。这个消融实验证明了ctc监督的作用和selective decoder的作用。但是如果继续叠加block的话,效果就会开始下降。最后这个就是个实验结果的图片,不难看出随着decoder论数的增加,结果逐渐正确。另外是网络中不同阶段的预测结果。最后一行代表的意思是,以上阶段的预测结果只要有其中一个预测正确,那么就算正确。这说明了如果有一个很好的ensemble的方法,正确率还可以继续提升。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值