Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译

摘要

 场景文本图像包含两个水平的内容,视觉纹理和语义信息。虽然之前场景文本识别方法已经取得了很大的进展,然而研究很少在注意力机制来来挖掘语义信息,只有RNN结构不明确的探索了语义信息。我们观察到RNN结构有一些明显的缺陷。如与时间相关的解码方式和单向串行传输的语义环境,这极大限制了语义信息和计算效率。为了改善这些缺点,我们提出了一个端到端的新的解决方法叫做SRN,一个GSRM(global semantic reasoning module)被引入通过多路并行传输,捕获全局语义信息。在7个公开数据集上获得了最佳效果。

引言

 文本具有丰富的语义信息,虽然文本识别已经取得很大突破,但自然场景文本识别仍然是一个很大的挑战,由于字体的大小,颜色,空间分布以及不可控的背景。对于人类来说,文本识别不仅依靠视觉信息,也受到高层语义的理解。如下图1所示,很难依据单个分割字符识别,然而人类能通过整个单词识别出正确的结果。
在这里插入图片描述
对于语义信息,主流的方法是单向串行传输。这种方式有以下几种缺点;1.只能感知到有限的语义信息,在刚开始解码时间段几乎不能获取有用的语义信息;2.当一个解码错误的时候,接下来可能会造成连串的错误,而且序列模型很难并行化。
 本论文我们引进了一个叫做GSRM的子模块来解决以上问题,该模块以多路并行的方式来考虑全局语义信息。在这里插入图片描述
如上图b所示,多路并行传输可以及时感知到整个单词的语义信息,而且单个字符的错误信息影响有限。除此之外,我们提出了一个新的框架SRN来精确进行场景文本识别,不仅融合了GSRM而且应用了parallel visual attention module (PVAM) 和visual-semantic fusion decoder
(VSFD)。PVAM在并行注意力机制里是用来提取每一个时间点的视觉特征,VSFD旨在融合视觉和语义信息进行高效的解码。
 上下文模型结构可以在一定的时间或空间范围捕获信息。RNN很擅长处理序列数据,但它内在的序列行为阻碍了并行计算。为了解决这些问题,ByteNet等方法直接用CNN作为解码器,这些方法能很好的并行计算,但受限于感受野的大小不能很好的捕获全局信息。最近变形结构被提出可以捕获全局信息。本篇论文我们不仅采用变形结构来增强视觉编码特征,而且来推论语义内容。

方法

 SRN是一个端到端的训练网络包含四个部分:骨架网络,PVAM,GSRM,VSFD。骨架网络提取二维特征向量V,PVAM生成N个一维特征G,每个特征对应一个字符。N个一维特征G送入GSRM捕获语义信息S,最终G和S融合后通过VSFD预测N个字符。若文本字符串长度比N小,用EOS填充。整个网络如下图所示:
在这里插入图片描述

3.1 骨架网络

 我们用FPN来融合Resnet50的stage-3,stage-4,stage-5的特征作为骨架网络。特征图大小是输入图像尺寸的1/8大小,通道数是512.受到non-local mechanisms(文献4)的鼓舞,我们引入由位置编码、 multi-head注意力网络和前向反馈模块三部分组成的变形单元(文献34)来高效的捕获全局空间依赖。2D特征图送入堆叠的变形单元, multi-head的头部数量是8,前向反馈输出维度是512.然后增强的2D视觉特征V被提取。

Parallel Visual Attention Module(PVAM)

 注意力机制被广泛用于序列识别。可以看作是一种特征对齐的方式,相关输入的信息校准为相应的输入。因此注意力机制被用来生成N维特征,每个特征对应文本的一个字符。当前基于注意力的方法由于时序依赖性不够高效,因此PVA被引入来改善计算效率。
 一般来说注意力机制被描述为下列方式:给定一个键值对(ki, vi)和一个查询q,计算q和ki的相似性,根据相似性来聚集vi。而在我们的工作里,键值对设置为2D特征 (vij , vij ).遵循Bahdanau attention[2],用隐藏层Ht-1作为查询生成第t个特征。为了并行计算,reading顺序被用作查询而不是时间依赖的Ht-1,文本的第一个字符reading顺序是0.第二个字符的顺序是1,依此类推。我们的并行机制可以概括如下:
在这里插入图片描述
We,Wo,Wv都是训练参数,Ot是字符reading顺序,fo是嵌入函数。
 基于PVA的思路,我们设计了PVAM来校准所有时间的的视觉特征。对齐的第t个时间步的视觉特征被描述为如下:
在这里插入图片描述
计算是与时间无关的,因此可以并行计算。一些注意力特征图如图4所示;
在这里插入图片描述
获取的注意力特征图可以关注对应的字符。

Global Semantic Reasoning Module

 我们提出了GSRM,遵循多路并行传输来克服单向传输的缺陷。首先我们回顾了典型的RNN概率公式,如下所示:
在这里插入图片描述
et看作是第t个标签yt的词嵌入,在每一个时间步,RNN类的方法会参考之前的标签或预测结果。因为et-1和Ht-1只能在时间t时捕捉,这限制着语义推理的能力,也造成了推理时效率低下。为了克服以上问题,我们不用真正的词嵌入e,用一个近似的词嵌入e’这是时间独立的。从这个改善可以获得以下几个好处:1.Ht-1可以从等式3中移除,因此序列过程可以升级为并行过程。2。全局语义信息包括了前面和后面的字符,结合在一块可以推论出此时的近似语义内容。因此概率表达式被描述为如下:
在这里插入图片描述
e’t时et的近似信息,函数fr是一个当前语义信息和全局语义内容的映射。如果我们用st来表示
在这里插入图片描述
st是第t个语义信息特征S。等式4可以简化为下列:
在这里插入图片描述

基于以上思想,我们提出GSRM,它由两个关键部分组成:可视化语义嵌入模块(visual-to-semantic embedding block)和语义推理模块(semantic reasoning block)。
 visual-to-semantic embedding block是用来生成e’,具体的结构如图5所示:
在这里插入图片描述
由于PVAM,我们得到的特征在每个时间段已经对其了。对齐的特征G首先送入全连接层和嵌入损失Le,交叉熵损失是利用的,求和使它更关注目标字符。
在这里插入图片描述
然后嵌入向量e’t基于近似输出字符gt计算得出。
 Semantic reasoning block服务于实现全局语义推论,也就是等式4的函数fr。GSRM的结构如图5所示。e’之后是几个变形单元,这允许模型高效的感知全局语义信息。同时,初级的关系和高级的关系(如word semantic)可以被多个变形单元建模。最后,每一步的语义特征通过这个模块输出,定义为S。同时,损失Lr加上s,目标函数可以定义为:
在这里插入图片描述
交叉熵损失从全局信息的角度来最小化目标函数,这也帮助减少收敛时间。

Visual-Semantic Fusion Decoder

 正如我们所讨论的,对齐的特征G和语义信息S对于场景文本识别非常重要。然而G和S属于不同的领域,他们的权重可能是不同的,受gated unit[1]启发,我们引入了一些可训练的权重来平衡来自VSFD不同领域的特征。操作如下公式所示:
在这里插入图片描述
Wz是可训练的权重,ft是第t个融合的特征向量,t属于[1,N],所有融合的特征表示为F,被用来预测最终的字符,目标函数如下所示:
在这里插入图片描述
总的目标函数如下:
在这里插入图片描述
Le,Lr,Lf分别表示嵌入损失,推理损失,解码损失。权重αe, αr 和 αf被设置为1.0,0.15和2.0.

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
近年来,半监督深度面部表情识别成为了人们关注的热点问题之一。在这个领域,研究人员一直致力于利用少量有标签的数据和大量无标签的数据来提高面部表情识别的准确性和鲁棒性。Adaptive是一种有效的半监督学习方法,它能够自适应地利用标签和无标签数据,使得深度学习模型在应用于面部表情识别时更加有效。 半监督学习是一种机器学习方法,利用少量有标签的数据和大量无标签的数据来训练模型。在面部表情识别中,往往很难获取大量有标签的数据,而无标签数据却很容易获取,因此半监督学习成为了一种有吸引力的解决方案。通过利用Adaptive方法,研究人员可以更好地利用无标签数据,提高模型的泛化能力和鲁棒性,从而提升面部表情识别的准确性。 Adaptive方法还可以帮助模型在数据分布变化时自适应地调整,使得模型更具灵活性和稳健性。在面部表情识别任务中,由于不同环境和条件下的面部表情具有差异性,Adaptive方法能够使模型更好地适应这种差异,提高识别的鲁棒性。 总之,半监督深度面部表情识别与Adaptive方法的结合,有望提高面部表情识别的准确性和鲁棒性,为人们提供更加高效和可靠的面部表情识别技术。相信随着更多研究和实践的开展,半监督深度面部表情识别将迎来更加广阔的发展前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AICVer

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值