Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译

最新推荐文章于 2022-12-23 14:01:20 发布

AICVer

最新推荐文章于 2022-12-23 14:01:20 发布

阅读量1.1k

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/u011489887/article/details/107486614

版权

深度学习专栏收录该内容

61 篇文章 1 订阅

订阅专栏

摘要

场景文本图像包含两个水平的内容，视觉纹理和语义信息。虽然之前场景文本识别方法已经取得了很大的进展，然而研究很少在注意力机制来来挖掘语义信息，只有RNN结构不明确的探索了语义信息。我们观察到RNN结构有一些明显的缺陷。如与时间相关的解码方式和单向串行传输的语义环境，这极大限制了语义信息和计算效率。为了改善这些缺点，我们提出了一个端到端的新的解决方法叫做SRN，一个GSRM（global semantic reasoning module）被引入通过多路并行传输，捕获全局语义信息。在7个公开数据集上获得了最佳效果。

引言

文本具有丰富的语义信息，虽然文本识别已经取得很大突破，但自然场景文本识别仍然是一个很大的挑战，由于字体的大小，颜色，空间分布以及不可控的背景。对于人类来说，文本识别不仅依靠视觉信息，也受到高层语义的理解。如下图1所示，很难依据单个分割字符识别，然而人类能通过整个单词识别出正确的结果。
在这里插入图片描述
对于语义信息，主流的方法是单向串行传输。这种方式有以下几种缺点;1.只能感知到有限的语义信息，在刚开始解码时间段几乎不能获取有用的语义信息；2.当一个解码错误的时候，接下来可能会造成连串的错误，而且序列模型很难并行化。
本论文我们引进了一个叫做GSRM的子模块来解决以上问题，该模块以多路并行的方式来考虑全局语义信息。在这里插入图片描述
如上图b所示，多路并行传输可以及时感知到整个单词的语义信息，而且单个字符的错误信息影响有限。除此之外，我们提出了一个新的框架SRN来精确进行场景文本识别，不仅融合了GSRM而且应用了parallel visual attention module (PVAM) 和visual-semantic fusion decoder
(VSFD)。PVAM在并行注意力机制里是用来提取每一个时间点的视觉特征，VSFD旨在融合视觉和语义信息进行高效的解码。
上下文模型结构可以在一定的时间或空间范围捕获信息。RNN很擅长处理序列数据，但它内在的序列行为阻碍了并行计算。为了解决这些问题，ByteNet等方法直接用CNN作为解码器，这些方法能很好的并行计算，但受限于感受野的大小不能很好的捕获全局信息。最近变形结构被提出可以捕获全局信息。本篇论文我们不仅采用变形结构来增强视觉编码特征，而且来推论语义内容。

方法

SRN是一个端到端的训练网络包含四个部分：骨架网络，PVAM，GSRM，VSFD。骨架网络提取二维特征向量V，PVAM生成N个一维特征G，每个特征对应一个字符。N个一维特征G送入GSRM捕获语义信息S，最终G和S融合后通过VSFD预测N个字符。若文本字符串长度比N小，用EOS填充。整个网络如下图所示：
在这里插入图片描述

3.1 骨架网络

我们用FPN来融合Resnet50的stage-3,stage-4,stage-5的特征作为骨架网络。特征图大小是输入图像尺寸的1/8大小，通道数是512.受到non-local mechanisms（文献4）的鼓舞，我们引入由位置编码、 multi-head注意力网络和前向反馈模块三部分组成的变形单元(文献34)来高效的捕获全局空间依赖。2D特征图送入堆叠的变形单元， multi-head的头部数量是8，前向反馈输出维度是512.然后增强的2D视觉特征V被提取。

Parallel Visual Attention Module(PVAM)

注意力机制被广泛用于序列识别。可以看作是一种特征对齐的方式，相关输入的信息校准为相应的输入。因此注意力机制被用来生成N维特征，每个特征对应文本的一个字符。当前基于注意力的方法由于时序依赖性不够高效，因此PVA被引入来改善计算效率。
一般来说注意力机制被描述为下列方式:给定一个键值对(ki, vi)和一个查询q，计算q和ki的相似性，根据相似性来聚集vi。而在我们的工作里，键值对设置为2D特征 (vij , vij ).遵循Bahdanau attention[2]，用隐藏层Ht-1作为查询生成第t个特征。为了并行计算，reading顺序被用作查询而不是时间依赖的Ht-1，文本的第一个字符reading顺序是0.第二个字符的顺序是1，依此类推。我们的并行机制可以概括如下：
在这里插入图片描述
We,Wo，Wv都是训练参数，Ot是字符reading顺序，fo是嵌入函数。
基于PVA的思路，我们设计了PVAM来校准所有时间的的视觉特征。对齐的第t个时间步的视觉特征被描述为如下：

计算是与时间无关的，因此可以并行计算。一些注意力特征图如图4所示;
在这里插入图片描述
获取的注意力特征图可以关注对应的字符。

Global Semantic Reasoning Module

我们提出了GSRM，遵循多路并行传输来克服单向传输的缺陷。首先我们回顾了典型的RNN概率公式，如下所示:
在这里插入图片描述
et看作是第t个标签yt的词嵌入，在每一个时间步，RNN类的方法会参考之前的标签或预测结果。因为et-1和Ht-1只能在时间t时捕捉，这限制着语义推理的能力，也造成了推理时效率低下。为了克服以上问题，我们不用真正的词嵌入e,用一个近似的词嵌入e’这是时间独立的。从这个改善可以获得以下几个好处：1.Ht-1可以从等式3中移除，因此序列过程可以升级为并行过程。2。全局语义信息包括了前面和后面的字符，结合在一块可以推论出此时的近似语义内容。因此概率表达式被描述为如下：
在这里插入图片描述
e’t时et的近似信息，函数fr是一个当前语义信息和全局语义内容的映射。如果我们用st来表示

st是第t个语义信息特征S。等式4可以简化为下列：

基于以上思想，我们提出GSRM，它由两个关键部分组成：可视化语义嵌入模块(visual-to-semantic embedding block)和语义推理模块(semantic reasoning block)。
visual-to-semantic embedding block是用来生成e’，具体的结构如图5所示：
在这里插入图片描述
由于PVAM，我们得到的特征在每个时间段已经对其了。对齐的特征G首先送入全连接层和嵌入损失Le，交叉熵损失是利用的，求和使它更关注目标字符。

然后嵌入向量e’t基于近似输出字符gt计算得出。
Semantic reasoning block服务于实现全局语义推论，也就是等式4的函数fr。GSRM的结构如图5所示。e’之后是几个变形单元，这允许模型高效的感知全局语义信息。同时，初级的关系和高级的关系（如word semantic）可以被多个变形单元建模。最后，每一步的语义特征通过这个模块输出，定义为S。同时，损失Lr加上s，目标函数可以定义为：
在这里插入图片描述
交叉熵损失从全局信息的角度来最小化目标函数，这也帮助减少收敛时间。

Visual-Semantic Fusion Decoder

正如我们所讨论的，对齐的特征G和语义信息S对于场景文本识别非常重要。然而G和S属于不同的领域，他们的权重可能是不同的，受gated unit[1]启发，我们引入了一些可训练的权重来平衡来自VSFD不同领域的特征。操作如下公式所示：
在这里插入图片描述
Wz是可训练的权重，ft是第t个融合的特征向量，t属于[1,N]，所有融合的特征表示为F，被用来预测最终的字符，目标函数如下所示:

总的目标函数如下：

Le，Lr，Lf分别表示嵌入损失，推理损失，解码损失。权重αe, αr 和 αf被设置为1.0，0.15和2.0.

AICVer

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
0
评论
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks 论文翻译

摘要场景文本图像包含两个水平的内容，视觉纹理和语义信息。虽然之前场景文本识别方法已经取得了很大的进展，然而研究很少在注意力机制来来挖掘语义信息，只有RNN结构不明确的探索了语义信息。我们观察到RNN结构有一些明显的缺陷...
复制链接

扫一扫