RobustScanner: Dynamically Enhancing Positional Clues for Robust Text Recognition稿

  文本识别str领域伴随着rnn,cnn,selfattention的出现,准确率也随之提高。使用attention 解码,可以在不需要文本矫正的情况下进行文本识别。但是使用attention解码会存在一些问题,,目前有两个挑战,一个是attention漂移的问题。这里举个图片的例子比如说左边这张图会出现连续的两个likely,这也是因为我们训练的时候,使用的文本内容几乎都是单词,而不是随机生成的乱码,因此识别器学习到的更多的解码顺序都是基于内容信息的。我们使用的训练集中是用单词字符生成的,那么针对乱码的识别效果就会很差。这个问题的原因是attention decoder结构所带来的。这种形式的网络对字典的学习能力很强,但是如果数据集与测试集不同,那么效果就会很差。decouple的论文解决第一个挑战的问题的方式是通过解耦attention(通过图片信息来学习到字符的位置)来解决这个问题。这篇文章则提出了一个新的思路,通过给予网络位置信息来解决attention漂移的问题。
  接下来介绍一下背景,首先简单介绍下基于attention解码的流程。首先是通过特征提取网络进行特征提取,这里可以是resnet加fpn加self attention的组合来增加特征的信息,之后可以通过一个内容建模的模块,一般使用lstm。最后开始decode,这里是使用lstm attention来解码。首先初始状态我们可以设定为lstm的初始化,也可以从前面的特征中提取。之后输入lstm,获得一个query,也就是隐藏状态。根据这个query和之前提取到的特征去计算attention,之后通过这个attention模块来获得这个当前字符位置用来做识别的特征。 最后做softmax来获得最后的字符。
  作者研究了我解码的时候到底利用了哪些信息,内容信息是肯定利用到了,这可以从我们之前那些现象推出。内容信息并不是唯一

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值