ACM MM 2024 | FDP:利用CLIP实现准确高效灵活的场景文字检索

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和医学影像】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

7e4c3484edf293faab4904e674b918c3.png

来源:CSIG文档图像分析与识别专委会

2a517704c762e859f9ea7fe826df176e.png

本文简要介绍ACM MM 2024录用论文“Focus, Distinguish, and Prompt: Unleashing CLIP for Efficient and Flexible Scene Text Retrieval”。该论文提出了一个名为“Focus, Distinguish, and Prompt (FDP)”的方法,通过充分挖掘CLIP的内在潜能来实现无需感知的(OCR-free)场景文字检索。具体而言,针对CLIP直接用于场景文字检索时存在的文字感知尺度有限和视觉语义概念纠缠两方面问题,提出首先通过转移注意力和探寻隐含知识模块使模型聚焦于场景文字,然后将查询文本分类成实词和虚词分别进行处理,并设计扰动查询辅助模块抵抗形近单词的干扰,最后通过语义感知的提示方法完成图像的排序和检索。由于免去了复杂的场景文字检测和识别过程,FDP在保证检索精度的条件下能够显著提高检索速度,并在词组级别检索和属性感知检索设置下展现出突出的优势。

一、研究背景

场景文字检索旨在从图片库中搜索包含查询文本的所有图像。目前大多数方法借助OCR框架,存在两方面缺陷:1)难以达到检索精度与速度的良好均衡。如图1所示,以TDSL[1]和Wen et al.[2]为代表的检索方法需要引入显式的文字检测或识别过程,在检索速度上呈现不足。相对而言,Gomez et al.[3]利用一个简洁的Single-shot CNN框架能够达到较快的检索速度,但其是以精度的下降为代价的。2)无法处理不同形式的查询文本。如图2所示,现实生活中人们想要检索的查询文本往往是多样化的。但是,现有方法采用局部检索机制(将单词视为查询单元),不能灵活地泛化到词组级别或属性感知等更广泛的检索场景。

f060923d72fab9a0e77537e40ab704b4.png

图1 FDP方法与先前方法在检索精度和速度上的对比

c400b665ee42e0acad8b6e377ccf4cb8.png

图2 词组级别(Phrase-level)和属性感知(Attribute-aware)设置下的场景文字检索

针对上述问题,该论文探究是否能够利用CLIP的内在潜能实现高效灵活的场景文字检索。通过实验发现,直接使用冻结的CLIP模型已经能够达到一定的检索精度(52.93% mAP on IIIT-STR),而且得益于CLIP简洁的网络架构,其检索速度也非常快(76.32 FPS)。但是,原生CLIP仍然面临文字感知尺度有限和视觉语义概念纠缠两方面问题,在处理小文字、虚词查询以及形近单词上效果不佳。

二、方法原理简述

21ed3e75d460461897730a8038b50b4b.png

图3 FDP整体结构图

本文介绍的FDP模型整体结构如图3所示,其遵循Focus、Distinguish、Prompt的三步流程,具体细节如下:

1.   Focus:聚焦文字区域

因为原生CLIP能够支持的输入图像分辨率非常有限(如224*224),而场景文字常常在图像中仅占据很小的一部分,因此许多文字可能会被CLIP忽略或错误识别。为此,FDP首先采用位置编码插值的方法扩大输入图像分辨率,然后提出Dynamic Attention Shift和Text Knowledge Probing 模块分别从视觉空间和语义空间增强场景文字信息。1)Dynamic Attention Shift:给定输入图像,通过CLIP视觉编码器和一个重新参数化模块获得二维图像特征。基于,利用文字检测标注训练一个轻量化的网络预测文字定位概率图,并将作为掩码动态调整多头注意力层里的注意力分布,得到注意力特征,进而将模型关注区域转移到场景文字。2)Text Knowledge Probing:利用文本“Scene Text”的语言特征作为探针,将其与进行基于交叉注意力机制的特征交互来激活文字有关知识,获得更适用于文字检索任务的图像特征。

2.   Distinguish:区分查询文本

78b78469f8698dedabe6dbd8975aae29.png图4 视觉语义概念纠缠。(a)高频场景文字语言特征的t-SNE可视化;(b)原生CLIP模型对于实词和虚词的检索精度对比

如图4(a)所示,作者从MLT训练集中选取高频的500个词,提取其CLIP语言特征,并利用K-means进行簇数为2的聚类。通过t-SNE可视化发现,这些词自然地聚集为实词(如“Hotel”)和虚词(如“The”)两类,其中实词具有明确的语义,视觉语义纠缠程度更高。为了进一步说明该现象对场景文字检索任务的影响,图4(b)对比了原生CLIP模型在实词和虚词上的检索精度,发现虚词检索精度明显低于实词检索精度。由此说明,实词和虚词应该采取不同的检索方案,因此FDP在执行检索之前,会通过聚类结果预先区分查询文本是实词还是虚词。

3.   Prompt:提示优化检索

受CoOp[4]等可学习提示方法的启发,FDP提出语义感知的提示学习方法实现高效的场景文字检索。具体而言,针对实词和虚词,分别引入两组可学习上下文向量,与查询文本拼接在一起作为提示输入:

dbf4e3087addab68464b74ba3664999c.png

通过计算每个图像特征与提示特征的余弦相似度,对待检索图像进行排序,进而完成检索。此外,在训练时引入扰动查询辅助模块,其根据查询文本生成编辑距离较小的干扰查询文本作为难负例,帮助模型提升对于形近单词(如“Advice”和“Advise”)的鉴别能力。

三、主要实验结果

通过与已有方法的性能对比实验(表1)和消融实验(表2),可验证FDP方法的有效性和优越性。在IIIT-STR数据集上,FDP-S与先前最好的方法相比,检索精度提升了4.37%,速度快了4倍。在更有挑战性的SVT和TotalText数据集上,FDP仍然能获得具有竞争力的结果。

表1 FDP与已有方法在常用数据集上的性能对比da9cb46ef7e084d613ce03f910e963fc.png

表2 消融实验结果f29871b62baf775c1a18a2288cc0515b.png

为了验证FDP在处理不同形式查询文本上的优势,作者构建了一个词组级别的场景文字检索数据集PSTR。如表3和图5结果所示,FDP在该数据集上明显优于传统的基于局部检索的方法。图6的定性结果进一步说明FDP能够感知场景文字的颜色、字体和位置等属性信息,具有很好的泛化性。

表3 FDP与已有方法在PSTR数据集上的性能对比79fd732f55fc0cb1840eab84a60182df.png

ad43bbca8c74b65ef9cfc9659ba4a4e9.png图5 FDP与已有方法的定性对比

456b2d990114c83e19b2e47c6e705833.png

图6 FDP用于属性感知文字检索的定性结果

四、总结与讨论

最近的一些工作[5, 6]表明,CLIP模型通过在大量图像-文本数据上预训练,已经具备了一定的OCR能力。受此启发,本文提出一种新视角:是否可以利用CLIP的内在潜能实现准确、高效且灵活的场景文字检索。对此,论文设计提出了一个无需感知的场景文字检索模型FDP (Focus, Distinguish, and Prompt),其中“Focus”步骤挖掘了CLIP中隐含的场景文字有关知识,“Distinguish”和“Prompt”步骤进一步克服了视觉语义纠缠带来的负面影响。在三个公开数据集上的实验结果证明了所提出模块的有效性,并表明FDP在检索精度和速度之间取得了更好的平衡。此外,FDP可以很容易地推广到词组级别或属性感知场景下的文字检索,更适用于实际需求。

五、相关资源

论文链接:https://arxiv.org/pdf/2408.00441

代码(即将开源):https://github.com/Gyann-z/FDP

参考文献

[1] Hao Wang, Xiang Bai, Mingkun Yang, Shenggao Zhu, Jing Wang, and Wenyu Liu. 2021. Scene text retrieval via joint text detection and similarity learning. In CVPR. 4558–4567.

[2] Lilong Wen, Yingrong Wang, Dongxiang Zhang, and Gang Chen. 2023. Visual matching is enough for scene text retrieval. In WSDM. 447–455.

[3] Lluís Gómez, Andrés Mafla, Marçal Rusinol, and Dimosthenis Karatzas. 2018. Single shot scene text retrieval. In ECCV. 700–715.

[4] Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu. 2022. Learning to prompt for vision-language models. IJCV 130, 9 (2022), 2337–2348.

[5] Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, and Mike Zheng Shou. 2023. Parrot captions teach clip to spot text. arXiv preprint arXiv:2312.14232.

[6] Cheng Shi and Sibei Yang. 2023. Logoprompt: Synthetic text images can be good visual prompts for vision-language models. In ICCV. 2932–2941.


原文作者:Gangyan Zeng, Yuan Zhang, Jin Wei, Dongbao Yang, Peng Zhang, Yiwen Gao, Xugong Qin, Yu Zhou

撰稿:曾港艳、周宇 编排:高 学

审校:连宙辉 发布:金连文

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值