【论文阅读：VisionLAN（ICCV2021）】From Two to One: A New Scene Text Recognizer with Visual Language Modeling-CSDN博客

本文链接：https://blog.csdn.net/qq_44807946/article/details/134539457

摘要

该论文提出了一种视觉语言建模网络（VisionLAN），它将视觉和语言信息作为一个整体，直接直接赋予视觉模型语言的能力。在训练阶段引入了基于字符的遮挡特征图的文本识别，视觉模型在视觉线索被混淆时（遮挡、噪声等），利用字符的视觉纹理，还利用视觉语境的语言信息进行识别。由于语言信息与视觉特征一起获取，不需要额外的语言模型，因此VisionLAN的速度提高了39%，还自适应地考虑语言信息来增强视觉特征，实现准确的识别。提出了一个遮挡场景文本数据集评估确实特征视觉线索的情况下的性能。

介绍

视觉线索混乱的图像很难识别，场景文本图像包含视觉纹理和语言信息两层内容，受NLP启发，最近的研究重点转向获取语言信息辅助识别，视觉和语言模型的两步架构很流行。
存在的问题：一是额外的巨大计算成本，语言模型的成本随着单词长度的增加呈线性增长；二是聚合两个独立信息的难度。很难综合考虑和有效融合来自两个独立结构的视觉和语言信息来实现准确的识别。本文将两个问题归结为视觉模型缺乏语言能力，只关注字符的视觉纹理，而没主动学习语言信息。
受人类能够获得语言能力的认知过程的启发，我们使用视觉模型作为基础网络，在训练阶段引导其对遮挡字符进行推理。因此，训练视觉模型在视觉环境中主动学习语言信息。在测试阶段，视觉模型在视觉线索被混淆(如遮挡、噪声等)时，自适应地考虑视觉空间中的语言信息进行特征增强，有效地补充了被遮挡字符的特征，并正确突出了混淆字符的判别性视觉线索。据我们所知，这是在场景文本识别中首次赋予视觉模型感知语言能力的工作。我们把这种新的简单架构称为视觉语言建模网络(VisionLAN)。
在这里插入图片描述
VisionLAN包括骨干网、掩码语言感知模块(mask Language-aware Module, MLM)和视觉推理模块(Visual Reasoning Module, VRM)三部分。
在训练阶段，首先从骨干网络中提取视觉特征V。然后MLM以视觉特征V和字符索引P作为输入，通过弱监督互补学习，在相应位置自动生成字符掩码映射Maskc。MLM的目的是通过在V中遮挡视觉信息来模拟缺失字符视觉线索的情况。为了在视觉纹理建模过程中考虑语言信息，提出了一种能够捕获视觉空间中远程依赖关系的VRM。VRM将被遮挡的特征映射Vm作为输入，并被引导进行词级预测。
在测试阶段，我们去掉了MLM，只使用VRM进行识别。由于语言信息是与视觉特征一起获取的，不需要额外的语言模型，因此VisionLAN引入了零计算成本来捕获语言信息，并且速度显著提高了39%(第4.4节)。

与以前的方法相比，VisionLAN在遮挡和低质量图像上获得了更强的鲁棒性，并在几个基准测试中获得了新的最先进的结果。此外，提出了一个遮挡场景文本(OST)数据集来评估缺失字符视觉线索情况下的性能。

本文的主要贡献如下：
1、提出了一种新的简单的场景文本识别体系结构。我们进一步可视化特征图，以说明VisionLAN如何主动使用语言信息来处理混淆的视觉线索(例如遮挡，噪声等)。
2、我们提出了一种弱监督互补学习方法，用于在仅单词级注释的MLM中生成准确的逐字符掩码映射。
3、提出了一种新的遮挡场景文本(OST)数据集来评估遮挡图像的识别性能。
与以前的方法相比，VisionLAN在七个基准(不规则和常规)和OST上实现了最先进的性能，并且具有简洁的管道。

该方法

VisionLAN是一个端到端可训练的框架，由三部分组成:骨干网、掩码语言感知模块(MLM)和视觉推理模块(VRM)。首先详细介绍提出的方法的流水线，r介绍MLM和VRM。

Pipeline

VisionLAN的流水线如图2所示。在训练阶段，给定一个输入图像，首先从骨干网络中提取二维特征V。然后，MLM以提取的特征V和字符索引P作为输入，通过弱监督互补学习生成位置感知的字符掩码映射Maskc。Maskc用于遮挡V中的逐字符视觉消息，以模拟缺少逐字符视觉语义的情况。之后，VRM将遮挡的特征映射Vm作为输入，在完全词级监督下进行预测。在测试阶段，去掉了MLM，只使用VRM进行预测。

屏蔽语言感知模块(MLM模块)

为遮挡字符视觉线索来指导语言学习，提出了一个掩码语言感知模块（MLM）来自动生成仅包含原始单词级注释的掩码映射。
在这里插入图片描述
如图所示，MLM以视觉特征V和字符指数P作为输入。字符索引P∈[1,Nw]表示被遮挡字符的索引，对于每个长度为Nw的输入单词图像，随机获得被遮挡字符的索引。然后利用transformer单元来提高特征表示能力。最后，结合字符索引信息，通过sigmoid层得到字符掩码映射Maskc，用于生成遮挡特征映射Vm。

为了指导Maskc的学习过程，在弱监督互补学习（WCL）的基础上设计了两个并行分支。WCL旨在引导Maskc覆盖更多被遮挡字符的区域，从而互补地使1−Maskc包含更多其他字符的区域。在第一个分支中，我们实现V和Maskc之间的逐元素乘积，以生成包含被遮挡字符的视觉语义的特征图Vmas（例如，图3中字符索引为1的单词“burns”中的字符“b”）。相反，第二分支中V和1−M askc之间的元素乘积用于生成包含其他字符的视觉语义的特征图Vrem（例如，图3中单词“burns”中的字符串“urns”）。通过这样做，互补学习过程引导Maskc只覆盖相应位置的字符，而不与其他字符重叠（如图7所示）。我们在两个平行分支之间共享变换器单元和预测层的权重（等式1），用于特征表示增强和语义引导。Vin 2 Rhw×c是特征图，Att 2 Rhw×N是注意力图，其中c=512是通道数，N=25是最大时间步长，h和w是高度和宽度。Oc是字符顺序的位置编码[35]。W1、W2、W3是可训练的权重，t是时间步长。
在这里插入图片描述
与BERT[5]相比，虽然两种方法都在一定时间步长内掩盖了信息，但本文提出的MLM掩盖了二维空间空间的视觉特征，而不是覆盖token级信息。此外，由于STR数据集是弱标记的，难以获得准确的逐字符像素级注释。因此，直接在STR任务中实现基于BERT的方法是不切实际的。在此基础上，MLM帮助模型从一个新的角度学习语言信息，这是现有掩蔽方法无法替代的。
使用原始的词级标注和随机生成的字符索引(详见第4节)自动获得WCL的监督。因此，MLM自动生成准确的字符掩码映射，而无需额外的标注，使实际应用成为可能。

视觉推理模块（VRM）

与以往采用两步结构捕获视觉和语言信息的方法不同，提出了视觉推理模块(VRM)，以统一的结构同时对两种信息进行建模。作为一种纯粹基于视觉的结构，VRM的目的是利用视觉环境中的字符信息，从被遮挡的特征中推断出词级预测。
在这里插入图片描述
VRM的细节如图所示，它包括两部分:可视化语义推理(VSR)层和并行预测(PP)层。VSR层由N个Transformer单元组成，在最近的计算机视觉任务中被证明可以有效地建模长期依赖关系。特别地，采用位置编码来感知像素的位置信息。本文提出的VRM使用Transformer单元进行序列建模，不受单词长度的影响。然后，设计PP层来并行预测字符; 公式与方程1相同。

为了实现语言建模过程yi =f(yN ,…, yi+1, yi−1, … y1)，第I个字符yi的推理过程需要纯粹依赖于其他字符的信息。由于MLM在训练阶段准确地遮挡了字符信息，引导VSR层预测字符视觉特征之间的依赖关系，从而推断被遮挡字符的语义。因此，在单词级监督下，VSR层学习在视觉语境中主动建模语言信息以辅助识别。在测试阶段，VSR层能够在当前视觉语义混乱(如遮挡、噪声等)的情况下，自适应地考虑语言信息进行视觉特征增强。

我们将测试中由VSR层生成的特征映射可视化，以更好地理解学习到的语言信息如何提高识别性能。如图5所示，VSR层有效补充了单词“better”中被遮挡字符“r”的语义，并借助视觉语境中的语言信息，正确突出了单词“trans”中字符“t”的判别性视觉线索。由于没有MLM引导的主动语言学习，VRM错误地将输入图像预测为“bettep”和“rrans”。

训练目标

本文方法的最终目标函数如式4所示。Lrec为VRM中的损失，Lmas和Lrem分别为MLM中预测掩码字符和其他字符的损失。λ1和λ2用来平衡损耗。特别地，我们设λ1 = λ2 = 0.5，并对Lrec、Lmas和Lrem使用公式5中的交叉熵损失。pt和gt分别表示预测值和真实值。
在这里插入图片描述

实验

数据集

为了公平比较，我们按照[45]的设置进行实验。训练集是 SynthText (ST) 和 SynthText90K (90K)。在包含IIIT 5K-Words (IIIT5K)、ICDAR2013 (IC13)、ICDAR2015 (IC15)、Street View Text (SVT)、Street View Text- perspective (SVTP)和CUTE80 (CT)的6个基准测试上对性能进行了评估。

此外，我们提供了一个新的遮挡场景文本(OST)数据集来反映识别缺少视觉线索的情况的能力。该数据集来自6个基准测试(IC13, IC15, IIIT5K, SVT, SVTP和CT)，包含4832张图像。该数据集中的图像被手动以弱或重的程度遮挡(如图6所示)。弱和重的程度意味着我们使用一条或两条线遮挡字符。对于每张图像，我们随机选择一个度只覆盖一个字符。

实验细节

我们使用ResNet45作为我们的主干。特别是，我们在阶段2,3,4中设置步幅为2，并默认初始化权重。根据最近的工作，我们将图像大小设置为256 × 64(与我们实验中128 × 32的大小没有明显差异)。数据增强包括随机旋转，颜色抖动和透视失真。我们在4个批处理大小（batch size）为384的NVIDIA V100 gpu上进行了实验。使用学习率为1e-4的Adam优化器对网络进行端到端训练。该识别包含37个字符，包括a-z、0-9和一个序列结束符号。

本文将训练过程分为2个步骤:无语言(LF)步骤和语言感知(LA)步骤。为了公平比较，控制了训练单元的总数，以与现有方法保持一致。
1)在LF步骤中，我们将MLM和VRM之间的连接分离(图2中的V = Vm)，以保证两个模块的学习过程更加稳定。此步骤中的VRM不会获得语言能力，仅使用视觉纹理进行预测。
2)在LA步骤中，利用MLM生成的Maskc遮挡特征映射V，指导VRM学习语言规则。具体来说，我们控制了批次中遮挡数的比例，目的是在训练阶段平衡视觉信息丰富或薄弱的情况。

由于所有的训练图像都有单词级标注，我们根据单词的长度随机生成字符索引，并使用该索引和原始单词级标注生成MLM的标签(例如，当index为4，单词为“house”时，标签分别为“s”和“houe”)标签生成过程是自动的，无需人工干预，这使得在其他数据集上调整我们的模型变得容易。

消融实验

基线包含表1& 2& 3中两个transformer单元的VRM。
**MLM的有效性。**所提出的MLM旨在指导VRM中的语言学习过程。我们进行了几个实验来评估其在Tab1中的有效性。基线模型在没有传销的情况下实现。我们改变批次中遮挡数的比例来研究其对识别性能的影响(例如当批次大小为128时，比例= 1:3意味着我们在1批次中仅对32个样本使用Maskc遮挡V，其余96个样本的特征图保持不变)。如Tab1所示，当比例在1:2 ~ 2:1范围内时，所提出的MLM显著提高了基线模型的性能。对于含有大量混淆视觉线索(模糊、遮挡、噪声等)图像的不规则数据集(IC15、SVTP、CT)，本文提出的MLM以1:1的比例将基线模型的准确率提高了至少2%，进一步证明了主动语言学习过程有效地帮助视觉模型处理混淆视觉线索。对于常规数据集，改进也相当可观(IIIT5K、IC13和SVT数据集分别为0.9%、0.8%和1.7%)。当比例提高到2:1时，性能略有下降。我们推断，在训练过程中，比值的较大值将打破视觉线索丰富和微弱的案例之间的平衡。因此在其余的实验中，我们将ratio的值设置为1:1。

WCL的有效性。 为了证明所提出的弱监督互补学习在MLM中的有效性，我们进行了几个仅使用第一个分支(闭塞字符)或第二个分支(剩余字符串)实施的实验。如表2所示，在训练阶段，使用互补学习过程实现的MLM比只指导闭塞字符或剩余字符串语义的方法获得了更好的效果。

与其它掩蔽方法相比。 我们将MLM与[6,33]进行比较，以评估我们在语言建模方面的有效性。为了公平比较，所有模块都只在V上工作。如表3所示，提出的MLM显著提高了识别结果(1.4% vs 0.2%)。如3.3节所述，第i个字符的推理过程需要完全依赖于其他字符的信息，而不包含当前的字符信息。因此，随机屏蔽逐像素特征[6,33]不具有语言学习能力。得益于精心设计的体系结构和巧妙的弱监督学习，MLM能够准确定位具有特征的视觉线索，从而能够指导VRM中的语言学习过程。

VRM的有效性。 为了研究识别性能与语言信息捕获能力之间的关系，我们比较了在VSR层中使用不同数量的变压器单元实现的模型的结果。如表4所示，采用三个Transformer单元实现的VRM进一步提高了性能，具有更强的语言能力。

与先进算法的对比

在表5的6个基准测试中，与以前最先进的方法进行了比较。根据是否使用语言信息简单地将方法分为无语言方法和语言感知方法。感知语言的方法通常比无语言的方法执行得更好。得益于自适应地考虑语言信息以增强特征，与无语言和语言感知方法相比，所提出的VisionLAN在6个公共数据集上实现了最先进的性能。具体而言，对于常规数据集，所提出的VisionLAN在IIIT5K、IC13和SVT数据集上分别获得1%、0.2%和0.2%的改进。对于不规则数据集，IC15、SVTP和CT分别增加1%、0.9%和0.7%。

由于VisionLAN自适应地考虑了二维视觉空间中的视觉和语言信息，因此我们的方法对扭曲图像的敏感性较低。因此，本文方法在不规则数据集上的识别效果优于ASTER[32]和ESIR[47]，后者在识别前采用校正过程。如表5所示，在IC15、SVTP和CT数据集上，[32]的增幅分别为7.6%、7.5%和9%，[47]的增幅分别为6.8%、6.4%和5.2%。

我们进一步比较了现有方法与我们的方法在识别速度和捕获语言信息的额外引入参数(eip)方面的差异，见表6。在接近速度和参数方面，我们在[45]的GSRM中实现了一个Transformer单元(与第4.5节相同)。由于语言信息是与视觉特征一起获取的，不需要额外的语言模型，因此在不引入额外参数(0M vs 12.6M和3M)的情况下，所提出的VisionLAN显著提高了至少39%的速度(11.5ms vs 19ms和43.2ms)。此外，由于VisionLAN直接考虑视觉空间中的语言信息，因此其捕获语言信息的效率不会受到单词长度的影响。

OST数据集上的语言能力

为了详细评估VisionLAN的语言能力，与最近最流行的语言模型(RNN[32]和Transformer[45])在OST数据集上进行比较，以评估它们在缺少字符视觉线索的情况下的性能。具体地说，我们按照他们论文中的实现细节将这些语言模型连接到VRM。如表7所示，虽然[32]和[45]捕获的语言信息可以辅助视觉模型的预测，但本文提出的VisionLAN将视觉和语言信息视为一个整体，明显优于这些方法。通过自适应地将这两个信息聚合在一个统一的结构中，而不是单独考虑它们，VisionLAN平均提高了7.3%的基线模型。

中文长数据集的泛化能力

我们在非拉丁长文本(TRW15[49])上对VisionLAN进行了评估，以证明其泛化能力。这个数据集包含2997张裁剪过的图像，我们将最大长度N设置为50。我们一依据[45]的步骤训练VisionLAN。如表8所示，与无语言（CTC）和感知语言（2D Attention）方法相比，VisionLAN至少比这些方法高14.9%。得益于将视觉和语言信息视为一个联盟，所提出的VisionLAN实现了一个新的最先进的结果，并显著优于SRN[45]3.2%。在其他数据集（如MLT[26]等）上的更多实验可在补充中获得。

定性分析

按字符定位的MLM。 为了定性分析MLM的有效性，我们在图7中可视化了生成的Maskc的一些示例。生成的Maskc在字符索引P的引导下有效地将字符视觉线索定位在相应的位置。此外，MLM能够处理失真的图像（例如弯曲的单词图像“nothing”）和重复字符的定位（例如单词“confabbing”中P=6的字符“b”）。补充部分提供了对字符本地化性能的定量评估
VisionLAN的有效性。 我们收集了一些识别结果来说明所学习的语言信息如何帮助视觉模型提高性能。如图8（a）所示，VisionLAN可以处理具有混淆字符的情况。例如，由于字符“e”与单词“before”的图像中的字符“f”具有相似的视觉线索，因此没有MLM的VisionLAN错误地给出了预测“f”，而VisionLAN则借助语言信息正确地推断出了字符“e）。对于图8（b）中的样本，VisionLAN还可以使用语言规则来消除背景干扰（包括遮挡、照明、背景纹理等）。此外，图8 ©中模糊字符的准确识别也证明了我们方法的有效性。

总结

作为第一个赋予视觉模型语言能力的工作，本文提出了一个简洁有效的场景文本识别体系结构。VisionLAN成功地实现了从两步识别到一步识别(from Two to One)的转变，在一个统一的结构中自适应地考虑视觉和语言信息，而不需要额外的语言模型。与之前的语言模型相比，VisionLAN在保持高效率的同时显示出更强的语言能力。此外，提出了一个新的遮挡场景文本数据集来评估在特征视觉线索缺失情况下的性能。在七个基准测试和提出的OST数据集上的大量实验证明了我们的方法的有效性和效率。我们将提出的VisionLAN视为迈向更稳健和准确的场景文本识别的基础步骤，我们将在未来进一步探索其潜力。