白翔团队新作：借助CLIP完成场景文字检测

奥比中光3D视觉开发者社区

于 2023-04-04 08:00:00 发布

阅读量450

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s/3dKO9ObnjdfUvQpZGcs16Q

版权

作者：秃头小苏

编辑：3D视觉开发者社区

原文链接：https://arxiv.org/pdf/2302.14338.pdf

代码链接：https://github.com/wenwenyu/TCM

引言

场景文字检测（Scene text detection）旨在从自然图像中定位每个文本实例的边界框或多边形，因为它具有广泛的实际应用场景，如办公自动化、即时翻译、自动驾驶和在线教育。随着全监督深度学习技术的快速发展，场景文本检测取得了显着进步。尽管监督方法在文本检测领域取得了显着进步，但它们需要广泛而精细的注释，例如字符级、单词级和文本行级边界框，尤其是用于任意形状场景文本的多边形框。所以，研究少量标记数据下的文本检测方法非常重要，即少样本训练市非常有意义的。

最近，通过利用预训练的视觉和语言知识，大规模对比语言-图像预训练的CLIP模型在各种视觉任务中展示了非常强大的能力。而作为语言和视觉模态信息的桥梁，很自然而然地会开始思考，能不能借助CLIP完成 Scene text detection呢？

与一般的目标检测相比，自然图像中的场景文本通常同时呈现视觉和丰富的字符信息，这与CLIP模型有着天然的联系。因此，如何充分利用来自视觉、语义和文本知识的跨模态信息来提高文本检测模型的性能在最近的研究中受到越来越多的关注。例如，受 CLIP 启发，Song等人采用细粒度的跨模态交互来对齐单模态embedding，以便通过精心设计的预训练任务学习更好的representation。Xue提出了一种弱监督预训练方法来联合学习和对齐视觉和部分文本信息，以学习用于场景文本检测的有效视觉文本表示。与之前的方法相比，本文提出了一种新方法，称为TCM。这个方法的重点是将CLIP模型直接用于文本检测而不需要预训练过程。但是如下图所示，他们都是two-stage的，显然不够直接和高效，也无法进行迁移泛化。

可以看到，之前的两种方法都需要完成两个部分，即对text或者image的encoder进行先预训练，然后进行fine-tuning。但是由于CLIP强大的zeo-shot和few-shot能力，我们其实已经拥有了一个超级强大的text encoder，所以fine-tuning就显得不那么重要，而直接进行text embedding和visual embedding的matching显然是一种更加高效和直接的方法。与其他基于视觉语言模型的预训练方法相比，TCM具有以下优点：

它可以应用于改进现有的场景文本检测器。它便于现有方法进行少样本训练，例如使用10%的标记数据，新方法在4个基准测试中平均提高了22%的F-measure。

通过将CLIP模型转换为现有的场景文本检测方法，进一步实现了有前途的领域自适应能力。

方法

本文的framework其实很直接，来看具体是怎么完成的。

CLIP的回顾

首先回顾一下CLIP，CLIP收集了 4 亿个图文对用于模型预训练，很好地展示了学习可迁移知识和开放式视觉概念的潜力。CLIP模型是天生的文多模态模型，可以有效抽象图像和文本之间的latent space空间。可以发现模型可以比较好地完成文字内容的匹配。

给定一批图像-文本对，对于每个图像，CLIP 最大化与匹配文本的余弦相似度，同时最小化与所有其他不匹配文本的余弦相似度。对于每个文本，也就是对比学习的思路。然而，要利用此类模型中的相关信息，有两个先决条件：

🔹 有效地从 CLIP 请求先验知识的适当方法。

🔹原始模型只能衡量整合图像与单个词或句子之间的相似度。对于场景文本检测，每张图像通常有很多文本实例，都需要等价地完成ecall。来看作者是如何完成的。

把CLIP变成Text Detector

为了将 CLIP 模型转变为场景文本检测器，我们提出了 TCM，如图上图所示。TCM 是一个可插入的模块，可以直接应用于增强现有的场景文本检测器。它分别从 CLIP 模型的图像编码器和文本编码器中提取图像和文本embedding。然后方法通过视觉提示学习设计跨模态交互机制从 CLIP 的图像编码器中恢复局部特征，可以捕获细粒度信息以响应粗文本区域，用于后续文本实例和语言之间的匹配。为了更好地引导预训练知识，引入了一个语言提示生成器来为每个图像生成条件提示，并设计了一个视觉提示生成器来学习图像提示，以适应文本检测任务的冻结剪辑文本编码器。TCM只需稍作修改即可直接适用于更广泛的文本检测方法。

🔹Image Encoder：使用了预训练的ResNet50作为图像编码器。ResNet50是一种卷积神经网络来编码图像，图像编码器输出image encoder。

🔹Text Encoder：使用了CLIP的预训练文本编码器作为文本编码器。该文本编码器将输入的K个类别提示嵌入到连续向量空间R^C中，生成文本嵌入作为文本编码器的输出，其中。具体来说，K设置为1，因为在文本检测任务中只有一个文本类别。

🔹Language Prompt Generator：用于自适应地从文本特征向视觉特征传播细粒度语义信息。具体来说，使用Transformer中的交叉注意力机制来建模图像embedding(Q)和文本embedding(K,V)之间的交互作用。然后学习视觉的prompts，将信息从图像级别传输到文本实例级别。

🔹Visual Prompt Generator: 同样的机制，而其主要作用是传播细粒度的视觉语义信息，以便更准确地匹配文本实例并生成精确的分割得分图。

给定的输出text和image的encoder，方法对文本感知局部图像执行文本实例语言匹配对齐对两个embedding进行 sigmoid 激活以获得二进制分数图。再进行matching：

P也就是输出的score map，最后联合det的loss进行优化。

实验

实验结果表明，该方法可以显著提高现有文本检测器的性能，并具有较强的few-shot训练能力和泛化能力。此外，与先前的预训练方法相比，该方法在性能上具有竞争力。最后，作者还对所提出的设计进行了敏感性分析。因此，该文提出的TCM方法是一种有效且具有潜力的文本检测框架。

可以发现相较于其他无论是回归还是分割的模型，都具有明显的优势，让我们提会到了CLIP这种预训练模型巨大的潜力。

few-shot的能力更加能体现出相应的优势，我认为这是受益于CLIP强大的泛化性。

进行domain之间的切换，也具有较强的能力

结论

本文提出了一种基于TCM方法的文本检测框架，该方法可以直接从CLIP模型中挖掘先前的知识，无需预训练过程。实验结果表明，该方法可以显著提高现有文本检测器的性能，并具有较强的few-shot训练能力和泛化能力。此外，与先前的预训练方法相比，该方法在性能上具有竞争力。因此，该文提出的TCM方法是一种有效且具有潜力的文本检测框架。

版权声明：本文为奥比中光3D视觉开发者社区特约作者授权原创发布，未经授权不得转载，本文仅做学术分享，版权归原作者所有，若涉及侵权内容请联系删文。

3D视觉开发者社区是由奥比中光给所有开发者打造的分享与交流平台，旨在将3D视觉技术开放给开发者。平台为开发者提供3D视觉领域免费课程、奥比中光独家资源与专业技术支持。

加入【3D视觉开发者社区】学习行业前沿知识，赋能开发者技能提升！加入【3D视觉AI开放平台】体验AI算法能力，助力开发者视觉算法落地！

奥比中光3D视觉开发者社区

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
白翔团队新作：借助CLIP完成场景文字检测

作者：秃头小苏编辑：3D视觉开发者社区原文链接：https://arxiv.org/pdf/2302.14338.pdf代码链接：https://github.com/wenwenyu/TCM。
复制链接

扫一扫