TPAMI'24 视觉与文本新结合，将CLIP模型转化为场景文本识别器

最新推荐文章于 2025-02-21 13:46:32 发布

小白学视觉

最新推荐文章于 2025-02-21 13:46:32 发布

阅读量281

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625124&idx=2&sn=55d1272ac5bcf3e31232de851278e1df&chksm=fa4ba55228c2448d6f7d3e3be0361ca0ecdf011ffca609bbab15785c4cc1a7bf9673c8cf84f2&scene=126&sessionid=0

版权

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

点击加入论文投稿、写作、阅读分享交流群

Turning a CLIP Model Into a Scene Text Spotter

题目：将CLIP模型转化为场景文本识别器

作者：Wenwen Yu; Yuliang Liu; Xingkui Zhu; Haoyu Cao; Xing Sun; Xiang Bai
源码：https://github.com/wenwenyu/TCM

摘要

我们利用大规模对比语言-图像预训练（CLIP）模型的潜力，增强场景文本检测和识别任务，将其转化为一个强大的骨干网络，FastTCM-CR50。这个骨干网络利用视觉提示学习和CLIP中的交叉注意力来提取图像和基于文本的先验知识。通过预定义和可学习的提示，FastTCM-CR50引入了一个实例-语言匹配过程，以增强图像和文本嵌入之间的协同作用，从而细化文本区域。我们的双模态相似性匹配（BSM）模块促进了动态语言提示的生成，实现了离线计算并提高了性能。FastTCM-CR50提供了几个优势：1）它可以增强现有的文本检测器和识别器，分别将性能提高了平均1.6%和1.5%。2）它超越了以前的TCM-CR50骨干网络，在文本检测和识别任务中平均提高了0.2%和0.55%的性能，同时推理速度提高了47.1%。3）它展示了强大的少样本训练能力。仅使用10%的监督数据，FastTCM-CR50在文本检测和识别任务中平均提高了26.5%和4.7%的性能。4）它在分布外的文本检测和识别数据集上持续提高了性能，特别是在ICDAR2019-ArT的NightTime-ArT子集和面向对象检测的DOTA数据集上。

关键字

CLIP
少样本
泛化
旋转对象
场景文本检测
场景文本识别

I. 引言

场景文本识别，旨在定位和识别自然图像中的文本实例，由于其多样化的实际应用，包括在线教育、办公自动化、自动驾驶和即时翻译，一直处于前沿。全监督深度学习技术的演进在场景文本识别中取得了显著进展。然而，这些监督方法严重依赖于详细和广泛的注释。如何在稀疏注释数据或在不同领域间转移的情况下提高文本识别技术的性能——通常称为少样本训练和泛化能力——越来越受到关注。

在过去的十年中，使用ImageNet和MSCOCO中的VGG16和ResNet-50等骨干网络来获取更好的初始化和泛化能力，是场景文本检测和识别的常见设置。最近，通过大规模对比语言-图像预训练（CLIP）模型利用预训练的视觉和语言知识，在一系列下游任务中显示出了有希望的结果。这些包括但不限于图像分类、目标检测和语义分割。在文本识别领域，场景文本通常提供丰富的视觉和字符信息，CLIP模型的潜力尤为明显。如何挖掘视觉、语义和文本知识中的跨模态信息以增强文本检测和识别模型的性能，越来越受到关注。例如，Song等人提出了一种细粒度的跨模态交互方法，灵感来自CLIP，通过预训练的文本任务预训练来对齐单模态嵌入并改善表示学习。Wan等人提出了一种基于自注意力的文本知识挖掘技术，通过图像级文本识别预训练任务来增强骨干网络。同时，Xue等人引入了一种弱监督的预训练方法，旨在共同学习和对齐视觉和部分文本信息。目标是培养适用于场景文本检测和识别的有效视觉文本表示。

与图2中说明的现有方法相反，我们的目标是将CLIP模型直接转化为文本检测和识别的基础，消除了预训练任务的需求。然而，这并不是一项简单的任务，因为我们通过实验观察到，仅仅使用CLIP模型只能带来最小的提升，甚至在航空目标检测中得到更差的结果，如第IV-I节所示。主要挑战在于找到一种有效的方法来利用针对每张图像的视觉和语义先验信息。

为此，我们引入了一个专门为场景文本检测和识别任务设计的新型骨干网络，称为FastTCM-CR50。该模型可以方便地集成到现有的场景文本检测和识别框架中，以提高它们的性能。我们的方法的核心是通过视觉提示学习建立的跨模态交互机制。该机制通过交叉注意力实现，从CLIP图像编码器中恢复局部特征，从而捕获细粒度信息，这对于响应粗略的文本区域特别有用。此外，为了利用文本编码器的先验知识来处理不同的输入图像，我们使用了一个改进的语言提示单元，该单元在可学习的查询和双模态相似性匹配的基础上构建，以获得全局图像信息。此外，我们还设计了一种实例-语言匹配方法，以对齐图像和文本嵌入，这有助于图像编码器根据跨模态视觉-语言先验细化文本区域。然后，FastTCM-CR50模型可以直接微调用于文本检测和识别任务，而无需预训练任务，如图2（c）详细说明。与我们的会议版本TCM-CR50相比，FastTCM-CR50引入了双模态相似性匹配（BSM）模块以及作为隐式图像条件的可学习参数，这使得CLIP文本编码器能够在推理期间执行离线计算，从而实现更好的结果并减少推理时间，如图1所示。

我们的方法的优点总结如下：

我们的提出的FastTCM-CR50骨干网络本质上增强了当前的场景文本检测器和识别器，与众多基线方法相比，分别在场景文本检测和识别任务中平均提高了1.6%和1.5%的性能。
此外，FastTCM-CR50在文本检测和识别任务中超越了以前的文本检测和识别骨干TCM-CR50，分别在文本检测和识别任务中平均提高了0.2%和0.55%的性能，同时推理速度显著提高了47.1%。
展示出强大的少样本训练能力，我们的新骨干网络在只用10%的监督数据训练时，分别在文本检测和识别任务中表现出平均26.5%和4.7%的显著性能提升。
在泛化能力方面，我们的方法显著超越了基线方法，在文本检测和识别的领域适应任务中平均提高了12.4%和14.8%。特别值得注意的是，在ICDAR2019-ArT的NightTime-ArT子集和面向对象检测数据集DOTA-v1.0上取得的显著改进，展示了其在不同任务领域中的稳健泛化能力。

III. 方法

我们的方法概述如图3所示。本质上，我们将CLIP模型重新用作骨干，利用FastTCM作为CLIP骨干和检测/识别头部之间的桥梁。

A. 先决条件：CLIP模型

CLIP模型在学习和迁移知识以及开放集视觉概念方面展示了巨大的潜力，这得益于其在预训练阶段分析了4亿未标注的图像-文本对。先前的研究表明CLIP的单个神经元擅长以文字、象征性和概念性的方式捕捉概念，这使其成为一个天生对文本友好的模型，能够有效地映射图像和文本之间的空间。在训练阶段，CLIP通过对比损失学习两个模态的联合嵌入空间。给定一批图像-文本对，模型最大化与匹配文本的余弦相似度，并最小化与所有其他不匹配文本的相似度。相同的过程也适用于每段文本，这使得CLIP能够用于零样本图像识别。然而，利用这样一个模型产生的宝贵洞察力有两个先决条件。首先，需要一种有效的方法来获取CLIP模型中存储的先验知识。其次，虽然原始模型旨在测量完整图像与单个词或句子之间的相似性，但场景文本检测和识别通常涉及每张图像中的多个文本实例，所有这些都需要被等效地召回。

B. FastTCM

FastTCM旨在增强CLIP模型，作为增强现有场景文本检测器和识别器的坚实基础。它通过从CLIP的图像和文本编码器中提取图像和文本嵌入来实现这一点。第一步是设计一个跨模态交互机制。我们通过视觉提示学习来实现这一点，它从CLIP的图像编码器中恢复局部特征。增强的局部特征允许捕获细粒度数据，有效地响应更一般的文本区域，为后续文本实例与语言之间的匹配奠定了基础。接下来，为了更好地利用预训练知识，我们构建了一个语言提示单元。这个单元为每张图像产生一个上下文提示。为了有效地提取图像和文本编码器之间的交互，同时实现更快的推理，我们使用了一种称为双模态相似性匹配的方法。这种方法允许使用CLIP文本编码器进行离线推理计算，同时动态生成基于图像条件的语言提示。最后，我们采用了一种实例-语言匹配技术来对齐图像和文本嵌入。这鼓励图像编码器根据跨模态视觉-语言先验精心细化文本区域。

图像编码器：我们使用CLIP中预训练的ResNet50作为图像编码器，它为每个输入像素产生一个嵌入向量。给定输入图像，图像编码器输出图像嵌入，其中，，C是图像嵌入维度（C设置为1024），s是下采样比率（s经验设置为32），可以表示为：

文本编码器：文本编码器接收K个类别提示并将其嵌入到连续向量空间中，产生文本嵌入作为文本编码器的输出，其中。具体来说，我们在整个过程中使用CLIP的冻结预训练文本编码器，因为文本编码器可以为文本检测和识别提供语言知识先验。K设置为1，因为在文本检测任务中只有一个文本类别。与使用模板如“a photo of a [CLS]”的原始模型不同，我们预定义离散语言提示为“Text”。然后，文本编码器输入的一部分定义如下：

其中WordEmbedding(·)表示预定义提示“Text”类的词嵌入。D是词嵌入维度，设置为512。

受到CoOp的启发，我们还添加了可学习的提示，以学习文本嵌入的鲁棒可转移性，以便于CLIP模型的零样本转移，其中n是可学习提示的数量，默认设置为4，且。因此，文本编码器的输入如下：

文本编码器以为输入，生成文本嵌入，并且被简化表示为。

语言提示单元：尽管预定义提示和可学习提示对于引导CLIP模型是有效的，但它们可能在有限的少样本或泛化能力方面受到限制，以应对测试文本实例与训练图像分布不同的开放场景。为此，我们提出了一个语言提示模块，为每张图像生成一个特征向量，称为条件提示（cc），如图5所示。然后，cc与文本编码器的输入结合，如下式所示：

其中是文本编码器的条件图像条件下的新提示输入，我们用替换进行后续步骤。

如图4所示，我们引入了元查询（MQ），后接两层前馈网络，生成隐式条件提示（cc），使得文本编码器在推理过程中可以脱钩。此外，我们还设计了双模态相似性匹配（BSM）模块作为门控，控制应补偿文本模态嵌入的视觉模态信息量。这种文本嵌入与视觉信息的动态丰富有助于模型的整体性能。

元查询：具体来说，FastTCM首先结合了元查询（MQ），它是用可学习参数初始化的，代表了的形状。元查询作为隐式图像条件，用于指导后续语言提示的生成，引导文本编码器中的预训练知识。这种操作受到DETR的启发，其中使用了变换器编码器和解码器来寻找特定数量的对象查询（潜在的对象检测）。这种替代允许我们生成隐式条件提示cc，公式如下：

其中cc表示生成的隐式条件提示，用于后续步骤。，我们将cc与广播以获得。

双模态相似性匹配：给定文本编码器的输出和全局图像级特征，我们首先计算文本嵌入和全局图像之间的余弦相似度，如下式定义：

其中sim作为输出门控的相关阈值，用于控制用于补偿文本模态嵌入的视觉模态信息量。接下来，使用相关阈值sim，我们应用和之间的加权和，如下：

其中是文本编码器的新输出，它在隐式图像特征上动态后条件化。我们用替换后续过程中的，包括视觉提示生成器（9）和实例-语言匹配（11）。

视觉提示生成器：我们设计了一个视觉提示生成器，以自适应地将文本特征中的细粒度语义信息传播到视觉特征中，如图5所示。形式上，我们使用变换器中的交叉注意力机制来模拟图像嵌入（Q）和文本嵌入（K, V）之间的交互。然后学习视觉提示，用于将信息先验从图像级转移到文本实例级，定义如下：

其中TDec表示变换器解码器。在实践中，它由6个双向变换器解码器层组成，有4个头，足以在图像嵌入和文本嵌入之间进行充分的交互；变换器宽度为256，前馈隐藏维度设置为1024。

基于条件视觉提示，原始图像嵌入I配备了，以产生用于实例-语言匹配（11）和下游检测和识别头部的提示文本感知局部嵌入：

实例-语言匹配：给定文本编码器和图像编码器的输出，我们在文本感知局部图像嵌入和文本嵌入上执行文本实例-语言匹配对齐，通过点积后跟sigmoid激活得到二值分数图。生成的条件细粒度嵌入和视觉嵌入I的混合可以允许视觉特征中存在的文本实例更好地与预训练的语言知识匹配协作。匹配机制如下式所示：

其中是文本嵌入，因为在文本检测场景中只有一个文本类别，τ是温度系数，默认经验设置为0.07。P是二值文本分割图。分割图使用真实标签作为辅助损失进行监督，并与提示嵌入连接，用于下游文本检测和识别头部，以明确地将语言先验纳入检测。在训练期间，我们通过最小化分割图P和真实标签之间的二元交叉熵损失来进行优化，定义如下：

其中和分别是像素属于文本实例的标签和预测概率。

C. 优化

总损失函数是任务损失和辅助损失的总和，如下式所示：

其中λ是权衡超参数，在本文中设置为1。取决于下游文本检测方法，包括分割和回归类别，或文本识别方法。在推理期间，我们使用相应任务头部的输出作为最终结果。在实践中，我们将提出的方法集成到文本检测器和识别器中，以验证我们方法的有效性。

IV. 实验

我们进行了广泛的实验来验证FastTCM。我们的第一组实验检查了FastTCM-CR50骨干如何被集成到现有的文本检测器和识别器中，以实现一致的性能提升。接下来，我们展示了通过集成FastTCM方法的少样本训练能力和泛化能力。在第三组实验中，我们将我们的方法与以前为文本检测和识别量身定制的预训练方法进行了比较。然后，我们进行了彻底的实验来评估我们提出的设计的敏感性。最后，我们还对具有挑战性的定向航空目标检测数据集进行了实验，以证明我们方法的有效性。

A. 数据集

我们的实验在多个众所周知的场景文本检测和识别基准上进行，包括ICDAR2013 (IC13)、ICDAR2015 (IC15)、MSRA-TD500 (TD)、CTW1500 (CTW)、Total-Text (TT)、ArT、MLT17、MLT19、SynthText和CurvedSynthText-150k。有关数据集的更多详细信息，请参见附录，可在线获取。

B. 实施细节

在我们的文本检测任务实验中，我们测试了几种著名的检测方法，包括DBNet (DB)、PAN、FCENet (FCE)和较新的方法TextPMs。使用DBNet、PAN、FCENet和TextPMs的检测头部来得出最终结果。为了测试模型的少样本学习能力，我们直接在真实数据集上使用不同比例的训练数据进行训练，并在相应的测试数据上进行评估。泛化能力的测试是通过在相应的源数据集上训练它，然后在具有明显不同分布的目标数据集上进行评估。通过两种不同的形式的适应性评估FastTCM-CR50的泛化能力：synthtext-to-real和real-to-real。通过这些表格，我们可以看到，通过将FastTCM-CR50集成到DBNet中，我们在四种不同的设置中显著提高了性能，平均提高了12.4%的F-measure，这进一步证明了我们方法的有效性。值得注意的是，FastTCM-CR50也持续展现了比TCM-CR50平均高出0.4%的性能提升，进一步强调了我们方法的显著泛化能力。

对于场景文本识别的real-to-real适应性实验，我们也进行了实验，如表VI所示。结果表明，FastTCM-CR50能够通过平均提高14.8%的性能来增强现有的场景文本识别方法，这进一步展示了有效的泛化能力。

C. 与现有检测器方法的合作

我们评估了将FCENet、PAN、DBNet和TextPMs的原始骨干（ResNet50）替换为CLIP中的预训练图像编码器ResNet50（CR50）的影响。然而，如表I所示，仅仅利用CLIP模型（CR50）的预训练视觉-语言知识是不足以提升场景文本检测性能的。这表明需要采用适当的方法来发挥CLIP模型的潜力。随后，我们评估了FastTCM-CR50与这两种骨干的结合性能。正如表I所示，FastTCM-CR50能够有效地用于增强当前的场景文本检测器，与各自的基线方法相比，平均提高了1.6%的性能。此外，它还展示了比TCM-CR50骨干在IC15、TD和CTW数据集上平均提高了0.2%的性能，并且平均推理速度提高了45.87%。进一步地，当结合更强大的检测器如TextPMs时，FastTCM在各种文本检测数据集上平均提高了1.2%的性能，与基线方法相比，这表明了我们方法的适应性，并进一步确立了其即使与顶级检测算法集成时的益处。

我们的方法在图6中的可视化结果显示，包含文本信息的细粒度特征能够从全局图像嵌入中恢复出来，表明FastTCM能够准确识别文本区域。最佳查看方式为屏幕查看。

D. 与现有识别器方法的合作

检测结果

如表II所示，我们注意到当TCM-CR50与五种不同的文本识别方法结合时，在文本识别基准测试中的F-measure上持续提升。特别是，TCM-CR50在TT数据集上比基线方法MTSv3、ABINet++、ABCNet、DeepSolo和TESTR高出0.2%至1.8%的F-measure性能提升。在IC15和CTW数据集上也观察到一致的性能提升，强调了TCM-CR50适用于文本识别方法。此外，当FastTCM-CR50与MTSv3、ABINet++、ABCNet、DeepSolo和TESTR结合时，我们观察到比基于TCM-CR50的方法平均提高了0.2%的性能，伴随着类似的速度提升，表明FastTCM-CR50的优越性。此外，包括更大规模的数据集TextOCR，如TT数据集上的TESTR，实现了0.9%的性能提升。

端到端识别结果

在表II中，我们展示了我们的方法与现有场景文本识别器结合时的端到端识别性能。TCM-CR50在与各种合作方法结合时展现出了有利的性能。具体来说，在IC15数据集上，带有强词典的端到端设置中，TCM-CR50比原始的MTSv3、ABINet++、ABCNet、DeepSolo和TESTR分别高出+0.8%、+0.3%、+2.3%、+0.1%和+0.4%的'S'指标性能。在TT和CTW数据集上也观察到类似的一致性能提升，表明TCM-CR50有效地增强了现有的场景文本检测器和识别器的性能。此外，当用FastTCM-CF50替代TCM-CR50时，我们观察到比基线方法平均提高了1.5%的性能，比TCM-CR50平均提高了0.55%的性能，并且推理速度提高了约46.4%。这些结果突出了FastTCM-CR50的优越性及其在高效和准确的文本识别任务中的潜力。此外，当使用额外的大规模TextOCR作为训练数据时，我们的模型可以实现进一步的性能提升，这表明我们方法与大规模数据集的兼容性。

E. 少样本训练能力

文本检测任务的结果

为了验证我们方法在文本检测任务上的少样本训练能力，我们直接在真实数据集上使用不同比例的训练数据进行训练，并在相应的4个基准测试上进行评估。如图7所示，DB-FastTCM-CR50在有限数据上显示出了鲁棒性，并在平均10%的训练数据比例设置下比基线方法DB平均提高了26.5%的F-measure性能。此外，DB-CR50与我们特定的设计FastTCM相比改进有限。结果表明，FastTCM可以通过利用零样本训练的CLIP模型的预训练视觉和语言知识来捕获文本的固有特征。

文本识别的少样本实验

此外，我们在Total-Text上使用ABCNet、TESTR和DeepSolo进行了文本识别任务的少样本实验，如表III所示。考虑到文本识别方法中的识别器模块通常难以用非常有限的数据进行有效学习，我们遵循文本识别预训练步骤以获得相应文本识别方法的合适初始化。随后，我们应用Total-Text数据集的不同训练比例来评估少样本学习能力。结果表明，与DB-R50和DB-CR50相比，TCM-CR50和FastTCM-CR50在文本识别任务上展现出了优势。而且，使用我们的方法比基线方法平均提高了4.7%。这证明了FastTCM-CR50在文本识别任务的少样本学习场景中的有效性和优越性，从而扩大了我们方法在现实场景中的适用性和实用性。

F. 泛化能力

CLIP骨干泛化能力

我们进行了一个实验，以研究通过直接将DBNet的骨干替换为CLIP骨干（CR50）来研究DBNet的泛化性能，如表IV所示。它表明CLIP-R50确实可以为泛化带来好处。然而，通过与FastTCM-CR50骨干结合，性能可以显著提高。这表明直接使用预训练的CLIP-R50不足以提高现有文本检测器的泛化性能，这进一步表明检测器与CLIP之间的协同交互很重要。同时，FastTCM-CR50也持续展现出比TCM-CR50平均高出0.4%的性能提升，进一步强调了我们方法的显著泛化能力。

Synth-to-real和real-to-real适应性

我们在文本检测任务上进行了两种类型的实验，包括synthtext-to-real适应性和real-to-real适应性，如表IV和V所示。Real-to-real适应性包括单语言和多语言场景。从表格中我们可以看到，通过将FastTCM-CR50集成到DBNet中，我们在四种不同的设置中显著提高了性能，平均提高了12.4%的F-measure，这进一步证明了我们方法的有效性。值得注意的是，FastTCM-CR50也持续展现出比TCM-CR50平均高出0.4%的性能提升，进一步强调了我们方法的显著泛化能力。

场景文本识别的real-to-real适应性

此外，我们还对现有的识别方法进行了real-to-real适应性实验，如表VI所示。结果表明，FastTCM-CR50能够通过平均提高14.8%的性能来增强现有的场景文本识别方法，这进一步展示了有效的泛化能力。

G. 与预训练方法的比较

基于特定设计的预文本任务的预训练方法在文本检测领域取得了有效的进展。与这些努力相比，FastTCM-CR50能够直接将CLIP模型转化为场景文本检测器，无需预训练任务。比较结果如表VII所示，从中我们可以看到，无需预训练任务，DB+FastTCM-CR50在所有基准测试中一致优于以前的方法，包括DB+STKM、DB+VLPT和DB+oCLIP。特别是在IC15上，我们的方法以89.5%对86.5%的F-measure大幅超越了以前的最先进预训练方法。此外，我们还展示了提出的骨干可以进一步通过如oCLIP中的预训练任务进行改进，平均提高了0.11%的F-measure。

H. 消融研究

对于预定义提示的消融研究：当使用预定义提示时，如表VIII第二行所示，所有四个数据集（IC15、TD、TT和CTW）的性能都略有提高，分别比基线方法高出0.05%、0.2%、0.04%和0.1%。

对于可学习提示的消融研究：然后，结合预定义提示和可学习提示的结果在表VIII的第三行中提供。我们注意到通过添加可学习提示可以持续提高性能。我们还展示了使用不同数量的可学习提示在表VIII的第4到第6行中的影响。我们观察到，随着可学习提示数量的增加，所有数据集的性能逐渐提高。与值4相比，值32在CTW、TD和TT上获得了明显的改进。我们推测这是因为更多的可学习提示可以更好地引导预训练文本编码器的知识，这对文本检测很有用。在以下实验中，默认的可学习提示数量设置为4以简化。

对于语言提示模块的消融研究：此外，我们评估了提出的语言提示模块的性能，如表VIII第7行所示。借助语言提示模块的帮助，我们发现TCM在所有四个数据集上都取得了进一步的改进，特别是在ICDAR2015上，表明为每张图像生成的条件提示cc可以确保在不同类型的数据集上更好的泛化。

对于视觉提示生成器的消融研究：此外，结合提出的其他组件，视觉提示生成器在所有四个数据集上的F-measure改进比基线更好，IC15和TD上的边际分别提高了1.7%和2.0%。这种明显的补充现象的原因是视觉提示生成器可以从文本特征向视觉特征传播细粒度的视觉语义信息。此外，由视觉提示生成器生成的提示局部图像嵌入可以指导模型获得更准确的文本实例级视觉表示，这增强了实例-语言匹配的能力，并生成了对下游检测头部有用的精确分割分数图。

对于双模态相似性匹配的消融研究：我们进一步比较了使用和不使用双模态相似性匹配的结果，如表VIII BSL+组的第7行所示。结果清楚地表明，利用双模态相似性匹配可以带来更高的性能。这一发现表明，双模态相似性匹配在训练模型中起着至关重要的作用，通过动态丰富文本嵌入与视觉信息，从而提高整体性能。

对于辅助损失的消融研究：我们比较了使用和不使用辅助损失的结果，如表VIII BSL+组的最后一行所示。我们观察到使用辅助损失可以获得更高的性能。结果表明辅助损失有助于通过在实例-语言匹配分数图上施加约束来训练模型。此外，性能的提高表明它可能有助于预训练的CLIP图像编码器有效地感知局部文本区域。

对于关键组件对泛化性能影响的消融研究：如表IX所示，从FastTCM中移除元查询和BSM组件会大幅恶化泛化性能，突出了这些组件的重要性和有效性。同样，移除VG和LM组件也会导致泛化性能的大幅下降，进一步验证了它们的效果。最后，当我们移除所有这些组件时，性能会额外显著下降，表明每个组件都为FastTCM-CR50的整体有效性和性能做出了贡献。

对于参数比较的消融研究：为了公平比较，我们通过将骨干替换为更大的ResNet来增加DBNet的参数，然后在TD数据集和IC13 → IC15领域适应实验中进行文本检测实验。使用输入尺寸1280 × 800计算的可训练参数和FLOPs。结果如表X所示。结果表明，与R152骨干的DBNet相比，DBNet与FastTCM-CR50具有更好的性能，并且模型尺寸和计算开销较小，证明了其有效性。

对于不同预定义语言提示的消融研究：我们对使用不同字符串的预定义语言提示进行了消融研究，使用DBNet与FastTCM-CR50在表XI中。结果表明，没有预定义语言提示会损害性能。此外，可以看出不同的预定义语言提示对性能的影响很小。当预定义语言提示变得复杂时，模型性能略有下降。我们认为这是因为CLIP在预训练的4亿图像-文本对数据集上不是很擅长处理复杂指令，因为其中包含噪声。因此，这种噪声可能影响CLIP处理长指令的能力。

对于不同数据量的消融研究：为了进一步探索FastTCM是否可以学习从增加数据中难以获得的额外知识，我们在包括IC13、IC15、TD、CTW、TT和MLT17在内的大规模公共联合数据上训练了模型，总共有13,784张图像，并在仔细收集的NightTime-ArT数据（326张图像）上进行了测试。ArT的夜间示例在附录中提供，可在线获取。结果如表XIII所示。结果表明，即使增加了大量训练数据，现有方法在明显不同于训练集的夜间数据上仍然存在局限性。然而，集成FastTCM-CR50仍然可以在这种情况下表现出色，表明其强大的泛化能力。

I. 旋转目标检测

为了进一步验证我们方法的泛化能力，我们将其适应于定向目标检测，并在广泛使用的DOTA-v1.0数据集上评估其性能，该数据集专门设计用于航空图像中的定向目标检测。DOTA-v1.0数据集包含15个常见类别、2806张图像和188,282个实例。在训练期间，我们采用了与合作方法相同的配置。如表XII所示，我们将我们的模型与以前的定向目标检测方法结合起来。结果表明，使用提出的FastTCM-CR50骨干可以持续改进。我们猜测FastTCM-CR50的改进源于其利用CLIP提供的丰富先验知识，从而优化了卫星图像中特定类别的识别和定位。具体来说，FastTCM-CR50在视觉特征和它们的文本描述之间启动了协同作用。与文本描述对齐的视觉特征被放大，使视觉特征更多地关注与遥感类别相关的部分，从而增强了旋转目标检测的性能。DOTA-v1.0上的定性结果如图8所示。

J. 实验总结

FastTCM-CR50在场景文本检测和识别方面的广泛实验分析表明了几个优点：(1) FastTCM可以无缝集成以增强现有的场景文本检测器和识别器，具有高效率。(2) FastTCM显著提高了检测器和识别器的少样本训练能力。(3) FastTCM还展示了强大的泛化能力，适用于包括领域适应、NightTime-ArT数据集和旋转目标检测数据集DOTA-v1.0在内的泛化任务。从ICDAR2019-ArT的NightTime-ArT子集和旋转目标检测数据集（DOTA-v1.0）上的显著改进进一步突出了提出方法的潜力。一些失败案例可以在图9中可视化。我们可以看到，一些类似文本的物体可能被错误地视为正文本区域。

V. 结论

提出的FastTCM-CR50骨干为众多场景文本检测器和识别器提供了显著的增强，实现了一致的性能提升，与以前的TCM-CR50相比，推理速度显著提高了47.1%。我们进行了全面的消融研究，以证明提出方法的每个方面的有效性。FastTCM-CR50的鲁棒性也通过其显著的少样本学习能力和泛化能力得到了证明。在ICDAR2019-ArT的NightTime-ArT子集和旋转目标检测数据集（DOTA-v1.0）上的显著改进进一步突出了提出方法的潜力。我们希望这项工作能为场景文本检测和识别领域的未来进步提供基础。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~