SCATTER：Selective Context Attentional Scene Text Recognizer稿

最新推荐文章于 2024-01-22 01:32:33 发布

Tyyy`

最新推荐文章于 2024-01-22 01:32:33 发布

阅读量981

点赞数

分类专栏：论文文章标签：深度学习

本文链接：https://blog.csdn.net/soulesstitan/article/details/107044909

版权

论文专栏收录该内容

23 篇文章 1 订阅

订阅专栏

这是一篇来自亚马逊的文章，对文本识别的方法提出了一种新的思路。
目前来看，文本识别的方法可以分为两种，一种是基于字符级别的文本识别，另一种则是基于字符串的识别。基于字符的识别，通常使用的都是分割的方法。基于字符串的识别的方法可以分为两种，一种是基于ctc的decoder的方式，另一种就是基于attention的decoder的方式。左边图中的(a)就是目前常用的基于attention decoder的流程图。可以分为四个步骤：第一步，图像的矫正，旋转。第二步，特征提取。第三步，内容建模。最后一步就是解码。而这篇文章的作者的思路就是堆叠网络深度，选择性地解码来获得更好的准确率。
这个网络结构同样也可以分为四个步骤，第一个步骤，图像使用TPS来进行旋转和矫正，将弯曲的文本变为平直的文本。第二个步骤是视觉特征提取，在这里使用的是29层的resnet。第三部分是一个视觉特征提纯模块，通过一个CTC的decoder来约束这里的视觉特征。之后，进入选择性内容提纯模块。将经过bilstm建模的内容特征和视觉特征结合起来解码。通过堆叠这样的模块来不断提升模块的识别能力。每一个模块在训练的时候，都会有监督信息来监督。最后在inference的时候，单单只是最后一个模块的decoder来decode出最后的结果。
选择性解码的模块示意图是这样的，它将视觉特征图和内容特征图concat到一起，通过全连接获得attention map之后再用一维attention的方式来解码出最后的结果。
训练的这个网络使用了三个数据集，分别是mj，sy，和sa。sa就是SAR里面提出来用sy相同的方式来生成数据集。通过这个数据集来解决之后测试集中没有的字符。每个batch里面随机采取40,40和20的结果来训练。
从结果可以看出，在规则文本和不规则文本能够获得不错的结果。尤其是在不规则的文本上的平均结果获得了最好的结果。下面是一个消融实验。这个消融实验证明了ctc监督的作用和selective decoder的作用。但是如果继续叠加block的话，效果就会开始下降。最后这个就是个实验结果的图片，不难看出随着decoder论数的增加，结果逐渐正确。另外是网络中不同阶段的预测结果。最后一行代表的意思是，以上阶段的预测结果只要有其中一个预测正确，那么就算正确。这说明了如果有一个很好的ensemble的方法，正确率还可以继续提升。