【读点论文】Multi-modal Text Recognition Networks: Interactive Enhancements between Visu..将视觉特征和语义特征结合起来-CSDN博客

本文链接：https://blog.csdn.net/weixin_43424450/article/details/141902241

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

Abstract

语言知识通过提供语义来细化字符序列，为场景文本识别带来了巨大好处。然而，由于语言知识是单独应用于输出序列的，以前的方法并没有充分利用语义来理解文本识别的视觉线索。本文介绍了一种新方法，称为多模态文本识别网络（MATRN），它使视觉和语义特征能够相互作用，从而获得更好的识别性能。具体而言，MATRN 识别视觉和语义特征对，并将空间信息编码为语义特征。基于空间编码，通过参考其他模态中的相关特征来增强视觉和语义特征。此外，MATRN 通过在训练阶段隐藏与字符相关的视觉线索来刺激将语义特征组合成视觉特征。我们的实验表明，MATRN 在七个基准上以较大的幅度实现了最佳性能，而两种模态的简单组合则显示出不太有效的改进。进一步的消融研究证明了我们提出的组件的有效性。我们的实现可在 https://github.com/wp03052/MATRN 获得。
论文地址：[2111.15263] Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features (arxiv.org)
文本识别网络不断地进步，从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分，分别是VM和LM。那么目前的VM和LM结合的方法可以总结为以下四类。
- VM之后接LM，VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN，ABINet的都是这种方法。
- 第二种类型是VM辅助LM，就像joint visual semantic这篇文章，多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段，都会添加噪声，并重新解码。
  - 第三种类型是LM辅助VM，就像from two to one这篇文章，通过LM的信息来增强视觉特征进行解码。
- MATRN这第四类的文本识别网络，即LM和VM相辅相成，互相帮助。
从实验结果可以看出来，该方法在比较困难的不规则图像中有较大提升。这说明当模型很难从视觉上进行识别的时候，文字之间的语义特征有助于识别。
学习资料：GitHub - mxin262/Awesome-Chinese-NLP: A curated list of resources for Chinese NLP 中文自然语言处理相关资料

Introduction

场景文本识别 (STR) 是光学字符识别 (OCR) 技术的主要组成部分，可识别给定文本图像块中的字符序列（例如交通标志中的单词）。深度神经网络的应用极大地提高了 STR 模型的性能。它们通常由视觉特征提取器（抽象图像块）和字符序列生成器（负责字符解码）组成。尽管进行了广泛的探索以寻找更好的视觉特征提取器和字符序列生成器，但现有方法仍然受到具有挑战性的环境的影响：遮挡、模糊、扭曲和其他伪影。
为了解决这些剩余的挑战，STR 方法尝试利用输出字符序列上的语言知识。主流方法是建模递归运算，学习语言知识以进行下一个字符预测。RNN 和 Transformer 已被用于学习自回归语言模型 (LM)。然而，自回归过程需要昂贵的重复计算，并且从单向传输中学习的语言知识有限。
为了弥补这些问题，Yu 等人提出了 SRN，它可以在没有自回归操作的情况下细化输出序列。在识别种子字符序列后，SRN 利用带有后续掩码的 Transformer 编码器一次性重新估计每个位置的字符。基于 SRN，Fang 等人通过阻止梯度流并使用在未标记文本数据集上预训练的双向 LM 明确划分视觉模型 (VM) 和 LM，改进了迭代细化阶段。这些结合了 LM 语义知识的方法在识别具有模糊视觉线索的具有挑战性的示例方面取得了突破。但是，没有视觉特征的字符细化可能会因遗漏现有的视觉线索而导致错误答案。
为了更好地结合语义和视觉线索，Bhunia 等人提出了一种多阶段解码器，多次参考视觉特征来增强语义特征。在每个阶段，通过重新评估视觉线索来重新细化用 Gumbel-softmax 设计为可微的字符序列。同时，Wang 等人提出了 VisionLAN，利用语言感知的视觉掩码遮挡选定的字符区域以在训练阶段增强视觉线索。他们证明，结合视觉线索和语义知识可以提高 STR 性能。受他们的启发，我们提出了一个新问题：对 VM 和 LM 分别识别的视觉和语义特征之间的交互进行建模的最佳方法是什么？
为了回答这个问题，本文介绍了一种简单但有效的 STR 模型扩展，即多模态文本识别网络 (MATRN)，它通过引用两种模态中的特征来增强视觉和语义特征。MATRN 由三个应用于视觉和语义特征的拟议模块组成：（1）多模态特征增强，结合双模态来增强每个特征，（2）语义空间编码，链接两种不同模态，（3）视觉线索掩蔽策略，刺激视觉和语义特征之间的交叉引用。图 1 展示了四种类型的视觉和语义特征融合。MATRN 通过应用多模态特征增强定位于双向特征融合（图 1d）。据我们所知，这种自然而简单的扩展从未被探索过。
- 图 1. STR 的四种视觉和语义特征融合：（a）VM 和 LM 输出的简单组合，（b）视觉到语义特征融合，（c）语义到视觉特征融合，（d）双向特征融合。SRN 通过应用 LM 来细化 VM 的输出而位于 (a) 中。ABINet 、PIMNet 和 JVSR 可以在 (b) 中对齐，因为它们的解码器在细化最终输出序列期间会迭代地引用视觉特征。VisionLAN 以类似于 © 的方式将语义信息组合到视觉特征中。我们的方法 MATRN 通过双向引用增强两个特征而位于 (d) 中。
由此产生的模型 MATRN 结构简单但有效。此外，由于整个过程是并行进行的，因此视觉和语义特征融合并不昂贵。当我们在没有我们提出的组件的情况下评估视觉和语义特征的简单组合时，性能改进效果较差。然而，有趣的是，所提出的组件有效地提高了 STR 性能，并使 MATRN 实现了卓越的性能，并且比当前最先进的性能有了显着的提升。因此，我们的论文证明了语义有助于捕捉更好的视觉线索，并且结合视觉和语义特征可以实现更好的 STR 性能。我们的贡献有三方面。
- 我们探索了由 VM 和 LM 识别的视觉和语义特征的组合，并证明了它们的优势。据我们所知，双向融合的多模态特征增强是新颖的组件，是自然扩展，但从未被探索过。
- 我们提出了一种名为 MATRN 的 STR 方法，它包含三个主要组件，即语义的空间编码、多模态特征增强和视觉线索掩蔽策略，以便更好地结合两种模态。得益于所提出组件的有效贡献，MATRN 在七个 STR 基准上实现了最先进的性能。
- 我们提供实证分析来说明我们的组件如何提高 STR 性能以及 MATRN 如何应对现有的挑战。

Related Work

为了利用双向 Transformer 的优势，STR 社区引入了非自回归解码器。它们的一般解码过程在于有效构建解码器中并行处理的序列。具体来说，描述输出序列顺序的位置嵌入用于对齐视觉（或语义）特征。尽管输出序列是并行生成的，但双向 Transformer 表现出与自回归方法相当的性能。ViTSTR 主要专注于 VM，没有明确学习 LM。受到 ViT 成功的启发，ViTSTR 将 ViT 训练方案应用于 STR。具体来说，它的组成非常简单，由 Transformer 编码器组成，并使用不重叠的补丁进行训练。
为了整合语言知识，人们提出了 PIMNet 、SRN 和 ABINet 。为了从自回归模型中学习语言知识，PIMNet 提出了非自回归与自回归模型之间的逐步预测和相似距离。SRN 和 ABINet 引入了一种语言模态，可细化 VM 的输出序列。然后，通过融合 LM 和 VM 的输出序列来实现最终的预测。在 SRN 中，LM 与 VM 一起训练，其中 LM 从其他单词中学习语义信息。基于 SRN，ABINet 通过明确划分 VM 和 LM 改进了迭代细化阶段。通过在未标记的文本数据集上使用预训练 LM，它在识别具有模糊视觉线索的具有挑战性的示例方面取得了突破。
为了交互式地结合 LM 和 VM，还引入了多模态识别器。JVSR 提出了一种多阶段解码器，多次引用视觉特征来增强语义特征。具体来说，它基于多阶段的 RNN-attention 解码器，其中每个阶段生成输出序列，并使用视觉特征来更新每个隐藏状态。由于解码器将隐藏状态作为输入，因此视觉特征可以迭代地增强语义特征。同时，VisionLAN 提出了一种语言感知的视觉掩码，它引用语义特征来增强视觉特征。给定单词的掩码位置，掩码模块在训练阶段遮挡字符区域的相应视觉特征图。以前的多模态识别器专注于一种模态进行最终预测，并利用另一种模态来改进所选的模态。相比之下，我们探索了多模态过程的多种组合，并提出了进行双向增强的 MATRN。

MATRN

这里，我们描述了我们的识别模型 MATRN，它结合了视觉和语义特征。我们将概述我们的方法，然后详细描述每个组件。

Overview of MATRNs

图 2 显示了我们模型的概览。它包括一个视觉特征提取器和一个种子文本生成器，用于嵌入图像并提供初始字符序列，就像传统的 STR 模型一样。LM 应用于种子文本以提取语义特征。
- 图 2. MATRN 概述。视觉特征提取器和 LM 分别提取视觉特征和语义特征。通过利用注意力图（表示视觉特征和字符位置之间的关系），MATRN 将空间信息编码到语义特征中，并隐藏与随机选择的字符相关的视觉特征。通过多模态特征增强模块，视觉特征和语义特征相互作用，并将两种模态中的增强特征融合在一起以最终确定输出序列。
- 方法的流程图如上图所示，首先图片通过视觉提取器和位置注意力模块得到初步的文字识别结果。然后将该识别结果通过一个预训练好的语言模型，得到文字的语义特征。
我们的贡献集中在结合视觉和语义特征以获得更好的 STR 性能。我们的方法首先利用在种子文本生成期间识别的注意力图将空间位置编码为语义特征。多模态特征增强模块通过结合多模态来丰富单个视觉和语义特征。增强的特征被称为多模态视觉特征、具有语义知识的增强视觉特征和多模态语义特征、具有视觉线索的增强语义特征。最后，将两个特征组合起来以提供输出序列。在 MATRN 的训练阶段，视觉线索掩蔽模块隐藏与单个字符相关的视觉特征，以刺激语义的组合。此外，输出序列可以迭代地应用到 LM 的种子文本中。

Visual and Semantic Feature Extraction

为了识别视觉和语义特征，我们构建了三个组件：视觉特征提取器、种子文本生成器和语言模型。下面介绍每个模块。
对于视觉特征提取器，应用了 ResNet 和 Transformer 单元。ResNet $F ^{V.R}$ 有 45 层，将输入图像 $X ∈ \R ^{H×W×3}$ 嵌入到卷积视觉特征 $V^{conv} ∈ \R ^{\frac{H }4×\frac W 4×D}$ 中。H、W 是图像的高度和宽度，D 是特征维度。在应用 Transformer 之前，先添加正弦空间位置嵌入 $P^V ∈ \R^{\frac H 4×\frac W 4×D}$ 。然后，应用具有三层的 Transformer $F ^{V.T}$ ：
- $\mathbf {V} = F^{\text {V.T}}(F^{\text {V.R}}(\mathbf {X}) + \mathbf {P}^{\text {V}}), (1)$
- 其中 $\R^{\frac H 4×\frac W 4×D}$ 表示视觉特征提取器的输出。
对于种子文本生成，利用注意力机制将视觉特征转录为字符序列。具体来说，通过将查询设置为文本位置嵌入来计算注意力图 $A^{V-S} ∈ \R ^{T ×\frac {HW} {16}}$ ，PS ∈ R T ×D，注意机制中的关键字为 $\R ^{\frac{HW} {16} ×D}$ ，其中 T 是序列的最大长度，G(·) 是一个迷你 U-Net。通过注意力图，在序列特征上抽象出视觉特征， $E^V = A^{V-S}\bar V$ ，其中 $\bar V ∈ R ^{\frac {HW} {16} ×D}$ 表示扁平化的视觉特征。通过应用线性层和 softmax 函数，生成种子字符序列 Y(0) ∈ R T ×C，其中 C 表示字符类别的数量。整个过程可以形式化如下；
- $\mathbf {A}^{\text {V-S}} = \text {softmax}\left (\mathbf {P}^\text {S}\mathcal {G}(\mathbf {V})^{\top } /\sqrt {D}\right ), \\ \mathbf {Y}_{\text {(0)}} = \text {softmax}\left (\mathbf {A}^{ \text {V-S}}\widetilde {\mathbf {V}}\mathbf {W}\right )$
- 其中 W ∈ R D×C 表示线性转移矩阵。
[Read like humans] 中引入的 LM 由四个 Transformer 解码器块组成。它使用 PS 作为输入，Y(0) 作为注意层的键/值。通过处理多个解码器块，LM 识别出语义特征， $S ∈ \R ^{T ×D}$ ；
- $\mathbf {S} = F^{\text {LM}}(\mathbf {Y}_{\text {(0)}}), (4)$
- 其中 $F ^{LM}$ 表示 LM。我们使用 [ABInet] 提供的在 WikiText-103 上预训练的权重初始化 LM。

Spatial Encoding to Semantic Features

视觉特征与语义特征相结合的一个重要点是如何对齐不同模态的每条信息。为了指导视觉特征与语义特征之间的关系，MATRN 将视觉特征的空间位置编码为语义特征。我们将这个过程称为空间编码到语义（SES）。
SES 的核心思想是利用用于种子文本生成的注意图 $A^{V-S}$ 和在视觉特征提取器中引入的空间位置嵌入 PV。由于 $A^{V-S}$ 提供了在每个位置估计字符时使用哪些视觉特征，因此语义特征的空间位置 $P^{Align} ∈ \R ^{T ×D}$ 计算如下；
- $\mathbf {P}^\text {Align} = \mathbf {A}^{\text {V-S}} \widetilde {\mathbf {P}}^{\text {V}}, (5)$
- 其中 $\bar P^V ∈\R ^{\frac{HW} {16} ×D}$ 是平坦正弦空间位置嵌入 PV。然后，我们将空间信息编码为语义特征：
- $\mathbf {S^\text {Align}} = \mathbf {S} + \mathbf {P}^\text {Align}. (6)$
从这个编码过程来看，空间对齐的语义特征S Align包含了视觉特征的空间线索，是高度相关的。需要注意的是，SES不需要任何额外的参数，对于视觉和语义特征之间的交叉引用，简单有效。

Multi-modal Features Enhancement

现在，我们持有视觉特征 ˜V，用于学习字符估计的视觉线索，以及语义特征 S Align，包含字符序列的语言知识。以前的方法只是使用门控机制来播种字符特征 EV 和语义特征 S。然而，这种简单的融合机制可能无法充分利用这两个特征。因此，我们提出了一种让视觉特征和语义特征有效地相互引用并从而增强特征的方法。
多模态Transformer 由可同时处理多种类型特征的变换器层组成，已在视觉问答、视觉语言导航、自动驾驶、视频检索等多个领域引入。受它们的启发，我们使用多模态变换器来增强 STR 的视觉和语义特征。多模态变换器具有多个 Transformer 编码器块，由注意层和前馈层组成。在注意层，视觉和语义特征都通过自注意力进行处理。由于查询确定了它们的主要模态，因此视觉特征被增强为多模态视觉特征 $V^M ∈ \R ^{\frac{HW} {16} ×D}$ ，语义特征被更新为多模态语义特征 $S ^M ∈ \R ^{T ×D}$ 。

Final Output Fusion

两种多模态特征都用于最终确定输出字符序列。虽然多模态语义特征已经对齐为一个序列，但需要重新组织多模态视觉特征来估计字符。为了将视觉特征对齐为一个序列，我们使用一个具有与种子文本生成器相同架构的字符生成器将 VM 聚合为序列特征 EVM（参见 §3.2）。然后，通过门控机制将两个序列特征 EVM 和 S M 组合起来，以识别用于最终字符估计的特征 F ∈ R T ×D：
- $KaTeX parse error: Expected 'EOF', got '&' at position 14: \mathbf {G} &̲ = \sigma \left…$
- 其中 Wgated ∈ R 2D×D 是权重，[; ] 表示连接，⊙ 是元素乘积。最后，在 F 上应用线性层和 softmax 函数来估计字符序列 Y(1) ∈ R T ×C 。

Visual Clue Masking Strategy

为了更好地融合视觉和语义特征，我们提出了一种视觉线索掩蔽策略，该策略受到 VisionLAN 的启发。该策略随机选择一个字符，并根据在种子文本生成中识别的注意力图 AV-S 隐藏相应的视觉特征。通过明确删除对字符估计有影响的特征，多模态 FE 模块受到刺激，将语义知识编码到视觉特征中，以弥补缺失的视觉线索。图 3 提供了视觉线索掩蔽策略的概念描述。
- 图 3. 视觉线索掩蔽策略的概念描述。基于注意力图（表示视觉特征与字符之间的关系），对随机选择的字符位置有影响的特征进行掩蔽。在多模态 FE 阶段，刺激语义特征进行更强烈的融合，以弥补缺失的视觉线索。
掩蔽过程在字符序列中随机选择一个位置，并找到与所选位置相关的前 K 个视觉特征。例如，如果选择了第四个位置，则该过程按第四个位置的注意力得分降序排列前 K 个视觉特征。已识别的视觉特征将替换为 v[MASK] ∈ R D。视觉线索掩蔽仅应用于训练阶段。为了减少训练和评估阶段之间的差异，我们以 0.1 的概率保持已识别的特征不变，如 [BERT] 所示。

Training Objective

MATRN 是端到端学习的训练方法，具有多任务交叉熵目标，来自多级视觉和语义特征。我们表示 L∗ 是从特征 ∗ 估计的字符序列的交叉熵损失。对于估计，使用线性层和 softmax 函数。此外，MATRN 应用迭代语义特征校正来解决 LM 的噪声输入。在迭代中，LM 的输入被替换为输出融合层的输出（参见图 2）。MATRN 的损失形成如下；
- $\mathcal {L} = \mathcal {L}_{\mathbf {E}^{\mathbf {V}}} + \frac {1}{M} \sum _{i=1}^{M} \left ( \mathcal {L}_{\mathbf {S}_{(i)}} + \mathcal {L}_{\mathbf {S}^\text {M}_{(i)}} + \mathcal {L}_{\mathbf {E}^{\mathbf {V}^\text {M}}_{(i)}} + \mathcal {L}_{\mathbf {F}_{(i)}} \right ), (9)$
- 其中 M 是迭代次数。其中，S(i) 、S M (i) 、EVM (i) 和 F(i) 分别表示第 i 次迭代的语义、多模态语义、多模态视觉和最终融合特征。

Experiments

Datasets

为了公平比较，我们使用相同的训练数据集和评估协议。对于训练集，我们使用两个广泛使用的合成数据集，MJSynth 和 SynthText 。MJSynth 有 9M 张合成文本图像，SynthText 由 7M 张图像组成，其中包括带有特殊字符的示例。之前的大部分研究都结合使用了这两个合成数据集：MJSynth + SynthText 。
为了进行评估，我们使用了八个广泛使用的真实世界 STR 基准数据集作为测试数据集。根据文本的几何布局，数据集分为两类：“常规”和“不规则”数据集。 “常规”数据集主要包含水平对齐的文本图像。 IIIT5K (IIIT) 包含从网络收集的 3,000 幅图像。街景文本 (SVT) 有 647 幅从谷歌街景收集的图像。 ICDAR2013 (IC13) 表示从商场图片中裁剪的图像，有两个变体； 857 张图像 (IC13S) 和 1015 张图像 (IC13L)。我们利用所有这两个变体进行公平比较。我们跳过了对 ICDAR2003 的评估，因为它包含与 IC13 重复的图像。
“不规则”数据集包含更多任意形状的文本示例。ICDAR2015 (IC15) 由从场景中拍摄的图像组成，也有两个版本：1,811 张图像 (IC15S) 和 2,077 张图像 (IC15L)。街景文本透视 (SVTP) 包含 645 幅图像，其中的文本是在透视图中捕获的。CUTE80 (CUTE) 包含 288 幅图像，其中的文本严重弯曲。
在我们的分析中，我们测量了每个数据集上的单词预测准确率。对于“Total.”，我们评估了除 IC13L 和 IC15L 之外的统一评估数据集的准确率。需要注意的是，我们遵循了 Baek 等人 [What is wrong with scene text recognition model comparisons? dataset and model analysis] 的理念，即在通用评估数据集上比较 STR 模型。

Implementation Details

通过调整文本图像的大小，输入图像的高度和宽度分别为 32 和 128，并且我们应用了图像增强方法，例如旋转、颜色抖动和噪声注入。字符类数为 37；数字为 10，字母为 26，以及单个填充标记。
我们借用了 ABINet 中的视觉特征提取器、种子文本生成器和语言模型的网络结构。我们将特征维度 D 设置为 512，将序列的最大长度 T 设置为 25。对于多模态 Transformer，我们使用 2 个 Transformer 块，其中有 8 个头，隐藏层大小为 512。除非另有说明，否则迭代次数 M 设置为 3。我们将视觉特征掩码的数量 K 固定为 10。
我们采用 ABINet 中的代码，并保留实验配置。我们使用 [ABINet ] 提供的预训练视觉特征提取器和预训练语言模型。我们使用 4 个 NVIDIA GeForce RTX 3090 GPU 来训练我们的模型，批量大小为 384。我们使用 Adam 优化器，初始学习率为 10−4，学习率在六个 epoch 后衰减到 10−5。

Comparison to State-of-the-Arts

表 1 列出了现有的 STR 方法及其在八个 STR 基准数据集（包括 IC13 和 IC15 的变体版本）上的表现。在此比较中，我们仅考虑在 MJSynth 和 SynthText 上训练的现有方法。
- 表 1. 八个基准数据集（包括变体版本）上的识别准确率（%）。下划线值表示以前的 STR 方法中的最佳性能，粗体值表示包括我们的模型在内的所有模型中的最佳性能。对于我们的实现，我们使用三个不同的随机种子进行重复实验，并报告平均准确率和标准差。
与现有的 STR 方法相比，PREN2D、JVSR 和 ABINet 表现出最佳性能（见表中带下划线的值）。与它们相比，MATRN 在除 IC15L 之外的所有评估数据集上都实现了最佳性能。具体而言，我们的模型在 SVTP 和 CUTE 上分别实现了 1.3 个百分点 (pp) 和 1.8pp，因为这些数据集包含低质量图像、弯曲图像或专有名词。因此，我们发现我们的多模态融合模块解决了场景文本图像的难题，而这些难题无法单独解决。JVSR 仍然在 IC15L 上保持最佳位置，但 MATRN 在其他数据集上显示出巨大的性能提升：在 IIIT 上 1.4pp，在 SVT 上 2.8pp，在 IC13L 上 0.3pp，在 SVTP 上 4.9pp，在 CUTE 上 3.8pp。
为了进行同类比较，我们复现了 ABINet，这是最先进的方法之一，也是我们在添加多模态融合模块之前的基线。在健全性检查中，我们观察到所有复现的性能都与报告分数的置信区间一致。当比较复现的 ABINet 中的 MATRN 时，性能改进在所有数据集上都具有统计意义，在 IIIT、SVT、IC13S、IC15S、SVTP 和 CUTE 上的差距分别为 0.4pp、1.3pp、0.7pp、0.7pp、1.3pp 和 4.5pp。
许多先前的研究，例如 SE-ASTER、SRN、ABINet、JVSR 和 VisionLAN，也分析了如何利用语义信息进行文本识别。与它们相比，MATRN 在除一个数据集之外的所有数据集上都表现出最佳性能。这一结果表明，与利用语义信息的现有方法相比，我们的视觉和语义特征结合方法是有效的。

Performance Comparison under the Comparable Resources

由于 MATRN 在 ABINet 上使用了额外的层和模块，因此性能提升可能被视为额外内存和计算成本的影响。为了证明所提方法的纯粹优势，我们评估了大型 ABINet，这些 ABINet 使用的额外内存和计算成本与 MATRN 所需的一样多。具体来说，扩大规模分为两部分；将转换器层添加到 VM（或 LM）中，直到模型具有相似数量的参数（大模型）和相似的推理速度（更大的模型）。表 2 显示了评估结果。大模型具有与 MATRN 相似的参数，但由于视觉和语义特征之间没有交叉引用，因此它们的速度更快。通过扩大模型规模，更大的模型具有与 MATRN 相似的推理速度，但拥有更多参数。在比较性能时，大模型提供的性能改进相对较小：总计 VM-Big 为 0.3pp，LM-Big 为 0.2pp。Bigger 模型比 Big 模型表现出更好的性能改进；总计 VM-Bigger 为 0.5pp，LM-Bigger 为 0.2pp。然而，当比较 MATRN 的性能改进时，扩大规模带来的性能提升是有限的；总计 0.9pp。此外，当比较所有大型 ABINets 时，MATRN 的性能具有统计意义。实验证明 MATRN 的好处不仅仅在于增加计算资源。
- 表 2. 同等资源条件下 ABINet 与 MATRN 的比较。 Param. 表示模型参数数量（M），Time 表示在 AMD 32 核、RTX 3090 GPU 和 SSD 2TB 下批大小为 1 的推理时间（ms/image）。下划线表示与 MATRN 相比资源相近或更多，粗体表示性能最佳。

Ablation Studies on Proposed Modules

在这里，我们分析了所提出的模块对最终性能的贡献。表 3 显示了从 ABINet 开始并逐一添加所提出的模块的消融研究。可以看出，当逐渐添加所提出的模块时，总体性能会提高。多模态 Transformer 的应用在 ABINet 的基础上提供了 0.4pp 的性能改进。通过在多模态 Transformer 上应用 SES，总体性能提高了 0.3pp。当添加视觉线索掩蔽时，总体性能最终达到 93.5%，提高了 0.2pp。因此，简单应用多模态 Transformer 带来了 0.4pp 的性能改进，而我们的新模块提供了 0.5pp 的性能改进。我们应该注意到，应用多模态 Transformer 需要额外的计算和参数，但其他提出的模块使用相当小的计算而没有任何额外的参数。消融研究表明，我们提出的用于更好的多模态融合的模块可以有效地带来更好的 STR 性能。

Discussion

单模态与多模态特征增强。现有方法侧重于利用其他模态的单模态 FE。为了分析多模态 FE 的优势，我们比较了利用多模态 Transformer 仅更新单一模态的单模态 FE。在这个实验中，我们使用 SES 通过多模态转换器实现更好的融合，但为了公平比较，不应用视觉线索掩蔽策略。表 4 提供了比较结果。在表中，第一个模型与使用 SES 的 ABINet 相同，单模态 FE 模型（第二个和第三个模型）通过多模态 Transformer 更新目标特征。可以看出，单模态 FE 提供了边际性能改进；总共 0.1pp。在增强两种模态（最后一个模型）时，STR 模型享有语义和视觉 FE 的两项优势，并且在总体上显示出巨大的性能改进。鉴于这些观点，我们发现，将视觉特征和语义特征结合起来可以提高识别性能，但单向信息流不足以融合两种模态。此外，多模态 FE 使两种特征能够双向通信并提供更好的性能。
各特征级别的 STR 性能 MATRN 利用 §3.7 中描述的多任务交叉熵目标。在这里，我们从多个特征 V、S、VM、S M 和 F 评估 STR 性能。表 5 显示了 ABINet 和 MATRN 的结果。有趣的是，S 的结果在两个模型中都表现出不足，因为它在不考虑视觉线索的情况下细化字符序列。然而，语义特征结合起来可以带来更好的性能：F（ABINet）、VM 和 S M（MATRN）。此外，MATRN 中的多模态特征比 ABINet 的最终性能更好，它们的组合表现最佳。
- 表 5. VM、LM 及其融合的各个特征级别的 STR 性能。每个值表示总体 STR 准确率 (%)。V 和 S 分别表示 VM 和 LM 的输出特征。VM 和 S M 表示通过交叉引用增强的特征。F 表示最终输出的组合特征。
交叉引用分析图 4 显示了由 MATRN 的多模态 FE 识别的注意力图示例。在每个注意力图中，左上角和右下角显示了指向其单模态特征的单模态注意力，其他的则提供了两种不同模态之间的交叉注意力。从示例中可以看出，视觉特征和语义特征既指向它们自己的模态，又相互作用。
- 图 4. 多模态 FE 中的自注意力图示例。右上角和左下角的注意力图表示两种模态之间的交叉注意力。
以往失败案例分析图 5 展示了 ABINet 失败而 MATRN 成功的测试示例。可以看出，MATRN 在“裁剪字符”、“严重弯曲的文本”、“模糊的视觉线索”和“低分辨率”方面提供了稳健的结果。结果表明 MATRN 解决了现有的挑战。
- 图 5. ABINet 失败（第一行）但 MATRN 成功（第二行）的示例。

Conclusion

本文探讨了 VM 和 LM 识别的视觉和语义特征的组合，以提高 STR 性能。具体来说，我们提出了 MATRN，它通过两种模态之间的交叉引用来增强视觉和语义特征。MATRN 由 SES（在视觉特征对齐的二维空间上匹配语义特征）、多模态 FE（通过多模态转换器一起更新视觉和语义特征）和视觉线索掩蔽策略（刺激视觉特征的语义引用）组成。在我们的实验中，多模态 Transformer 的简单应用导致基线的边际改进。为此，MATRN 的组件有效地促进了多模态组合，MATRN 最终在七个 STR 基准上以较大的幅度实现了最佳性能。