RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition稿

最新推荐文章于 2022-09-01 14:05:26 发布

Tyyy`

最新推荐文章于 2022-09-01 14:05:26 发布

阅读量483

点赞数 1

分类专栏：论文文章标签：深度学习

本文链接：https://blog.csdn.net/soulesstitan/article/details/107554915

版权

文本识别str领域伴随着rnn,cnn,selfattention的出现，准确率也随之提高。使用attention 解码，可以在不需要文本矫正的情况下进行文本识别。但是使用attention解码会存在一些问题，,目前有两个挑战，一个是attention漂移的问题。这里举个图片的例子比如说左边这张图会出现连续的两个likely，这也是因为我们训练的时候，使用的文本内容几乎都是单词，而不是随机生成的乱码，因此识别器学习到的更多的解码顺序都是基于内容信息的。我们使用的训练集中是用单词字符生成的，那么针对乱码的识别效果就会很差。这个问题的原因是attention decoder结构所带来的。这种形式的网络对字典的学习能力很强，但是如果数据集与测试集不同，那么效果就会很差。decouple的论文解决第一个挑战的问题的方式是通过解耦attention（通过图片信息来学习到字符的位置）来解决这个问题。这篇文章则提出了一个新的思路，通过给予网络位置信息来解决attention漂移的问题。
接下来介绍一下背景，首先简单介绍下基于attention解码的流程。首先是通过特征提取网络进行特征提取，这里可以是resnet加fpn加self attention的组合来增加特征的信息，之后可以通过一个内容建模的模块，一般使用lstm。最后开始decode，这里是使用lstm attention来解码。首先初始状态我们可以设定为lstm的初始化，也可以从前面的特征中提取。之后输入lstm，获得一个query，也就是隐藏状态。根据这个query和之前提取到的特征去计算attention，之后通过这个attention模块来获得这个当前字符位置用来做识别的特征。最后做softmax来获得最后的字符。
作者研究了我解码的时候到底利用了哪些信息，内容信息是肯定利用到了，这可以从我们之前那些现象推出。内容信息并不是唯一

最低0.47元/天解锁文章

Tyyy`

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition稿

文本识别str领域伴随着rnn,cnn,selfattention的出现，准确率也随之提高。使用attention 解码，可以在不需要文本矫正的情况下进行文本识别。但是使用attention解码会存在一些问题，,目前有两个挑战，一个是attention漂移的问题。这里举个图片的例子比如说左边这张图会出现连续的两个likely，这也是因为我们训练的时候，使用的文本内容几乎都是单词，而不是随机生成的乱码，因此识别器学习到的更多的解码顺序都是基于内容信息的。我们使用的训练集中是用单词字符生成的，那么针对乱码的
复制链接

扫一扫