整理:4篇论文让你弄清楚CLIP在计算机视觉领域最新应用

对比语言—图像预训练模型(Contrastive Language-Image Pretraining,CLIP)是一种深度学习模型,专门用于同时处理图像和文本数据。CLIP 的核心步骤如下:首先,利用视觉编码器和文本编码器,将图像和文本分别嵌入到相同的向量空间中;然后,通过对比学习的方法,使正确的图像-文本对之间的相似度最大化,错误的图像-文本对之间的相似度最小化。这个过程在大规模数据集上进行预训练,使模型能够在无监督的情况下学习到有效的特征表示。

预训练完成后,CLIP 能够执行多种下游任务,包括图像分类、对象检测和图像生成。其应用范围非常广泛,涵盖了计算机视觉(如图像分类和对象检测)、自然语言处理(如文本生成和问答系统)、跨模态搜索(如图像搜索和文本搜索)以及人机交互(如图像描述和图像生成)。通过处理多模态数据,CLIP 有效解决了这些领域中的复杂问题。

CLIP 的优势在于其强大的通用性和零样本学习能力,这使得它在实际应用中表现出色,具有广阔的应用前景。CLIP 在处理图像和文本数据方面展现了卓越的性能,成为众多领域解决复杂问题的强大工具。

我们整理了有关 CLIP 在计算机视觉领域最新应用的论文,这些研究深入探讨了 CLIP 的优化方向及其在语义分割中的具体应用。

论文1 Diffusion feedback helps CLIP see better

方法:

本文提出了一种简单的后训练方法,通过自监督扩散过程改善CLIP模型的细粒度视觉能力,有效提升其在多个多模态理解和细分任务中的表现。自对比语言-图像预训练(CLIP)模型的引入以来,该模型以其在多模态任务中的出色表现被广泛应用,然而,最新研究显示CLIP在视觉细节的理解上存在显著缺陷,限制了其在多模态大型语言模型中的感知能力。许多研究尝试通过预训练和微调技术来提高CLIP的表现,但这些方法仍依赖于图像-文本配对数据,无法有效处理仅包含图像的数据。此外,CLIP的对比学习范式和用于训练的噪声图像-文本对也导致了其在细粒度视觉理解上的不足。本研究关注CLIP在辨识细粒度视觉细节方面的不足,旨在通过自监督学习策略和扩散模型生成的真实图像反馈来优化CLIP的表征能力,从而提高其视觉感知能力并更好地服务于多模态理解任务。

图片

创新点:

(1)专注于克服CLIP在感知细粒度细节方面的视觉效果不足,本文首次利用文本到图像扩散模型生成的反馈来优化CLIP模型的区分性表示。

(2)本文提出了一个简单的自监督框架DIVA,用于优化CLIP的表示。结合视觉密集重述方案,DIVA使用CLIP的密集视觉特征来调节扩散模型,并引入图像重建损失进行优化。

(3)DIVA显著提升了CLIP的视觉感知能力,并在MMVP-VLM基准测试中提高了其性能,进一步增强了多模态学习和视觉模型在多模态和视觉理解任务上的表现。同时,在29个图像分类和检索基准测试中的结果表明,DIVA保持了CLIP原有的出色零样本性能。

结果:

图片

论文2 ClearCLIP: Decomposing CLIP Representations for Dense Vision-Language Inference

方法:

本文提出了CLIPtrase,一种无需训练的语义分割策略,通过重新校准CLIP模型中各局部特征的自相关性,增强了局部特征的感知能力,显著提升了分割精度和跨对象的语义一致性。CLIP作为一种视觉-语言模型,因其零样本能力而在开放词汇语义分割(OVSS)方面取得了显著进展。然而,由于CLIP最初是通过对图像级别的对齐训练,这影响了它在需要详细局部上下文的任务中的性能。CLIP模型在处理OVSS任务时面临挑战,因为它的训练方式可能导致全局对齐的图像-文本特征不适合需要密集特征和强大局部上下文区分能力的语义分割任务。以往的研究集中于开发复杂的解码器设计来适应像素级感知,以保持CLIP的零样本泛化能力。但这种方法忽略了CLIP固定模型提取的特征可能不适合语义分割任务。作者发现CLIP中的[CLS]标记对局部特征的区分能力存在负面影响,特别是“全局”补丁的存在,这些补丁倾向于获取整个图像的全局信息,从而削弱了局部特征之间的相关性。为了解决这个问题,作者提出了CLIPtrase方法,旨在通过增强补丁之间的局部相关性来提升CLIP在语义分割任务中的性能。

图片

创新点:

(1)本文首先对CLIP模型中的[CLS] token进行了深入分析,揭示了其在深层网络中与某些"全局"补丁的关联,这些补丁对所有其他补丁都有高注意力权重,从而影响了局部特征的区分能力。这种分析为理解CLIP在语义分割任务中的局限性提供了新的视角。

(2)本文提出了CLIPtrase,这是一种新颖的无需训练的语义分割策略。CLIPtrase通过计算自相关性来增强特征对其邻近补丁的关注,从而改善了局部特征的感知能力。这种方法有效地提高了语义分割的精度,并保持了对象间的语义一致性。

(3)CLIPtrase不仅可以独立使用,还可以与现有的先进方法(如SAM)结合,以利用CLIP的语义定位能力来获得更精确的分割结果。这种灵活性和可扩展性表明CLIPtrase能够适应不同的应用场景,并与其他技术协同工作以实现更好的性能。

结果:

图片

论文3 MTA-CLIP: Language-Guided Semantic Segmentation with Mask-Text Alignment

方法:

本文提出了MTA-CLIP,一种新颖的框架,通过掩码-文本对齐实现语言引导的语义分割。该方法使用CLIP语言模型增强掩码表示,并通过掩码到文本的对比学习进行对齐,捕获跨掩码的不同类别表示。语义分割是计算机视觉中的基础任务,将图像中的每个像素分配到一个类别标签。近年来,随着大规模视觉-语言模型(如CLIP)的出现,通过整合语言模型显著提高了语义分割的性能。CLIP模型通过在视觉和文本内容丰富的多样化数据集上进行预训练,实现对视觉内容的上下文敏感理解。然而,现有的方法通常采用像素-文本对齐,依赖于CLIP的低分辨率图像特征,导致类别边界处的类别歧义。像素-文本对齐面临几个挑战,包括低分辨率图像特征导致边界模糊和CLIP的全局场景表示与局部像素级特征不直接相关。为解决这些问题,作者提出MTA-CLIP框架,采用掩码级别的视觉-语言对齐。掩码表示捕获了类别内的整体实体或区域,更符合CLIP的预训练方法,避免了逐像素对齐的类别歧义。通过引入掩码-文本解码器和掩码-文本提示学习,MTA-CLIP能够更有效地对齐掩码表示和文本嵌入,提高语义分割任务的性能。

图片

创新点:

(1)本文提出了MTA-CLIP,这是一个基于CLIP的新颖语义分割框架,它将对齐方式从像素-文本转变为掩码-文本的视觉-语言对齐,更紧密地与CLIP的整体场景理解对齐,并有效地解决了边界处的类别歧义问题。

(2)MTA-CLIP引入了掩码-文本对齐,包括两个关键组成部分:掩码-文本解码器,它使用丰富的文本数据增强和对齐掩码表示;以及掩码-文本提示学习,它采用多个上下文特定的提示来捕获掩码内多样化的类别上下文。

(3)在ADE2Ok和Cityscapes等标准数据集上的广泛评估表明,MTA-CLIP超越了现有的最先进方法,确立了使用掩码-文本视觉-语言对齐的语义分割任务的新基准。

结果:

图片

论文4 Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation

方法:

本文提出MAFT+框架,用于优化开放词汇分割(OVS)任务中的视觉-文本表示。该方法通过内容依赖的迁移(CDT)和表示补偿(RC)策略,参数高效地优化文本表示,并保持CLIP模型的零样本能力,增强视觉-文本特征空间的一致性。OVS任务旨在分割任意文本描述的对象,超越传统分割模型的预定义类别限制。CLIP等视觉-语言预训练模型因其跨模态对齐特性和强大零样本能力备受关注,但在OVS任务中面临挑战。传统方法冻结CLIP以保持其零样本能力,或微调其视觉编码器以增强局部区域感知,但少有结合视觉-文本的协同优化。主流解决方案通常分两步:先生成类别不可知的掩码提议,然后利用CLIP通过相似性匹配分类。大多数工作选择冻结CLIP以保留其零样本能力。本文旨在解决现有方法在OVS任务中的局限性,保持CLIP零样本能力的同时提高其分割任务适应性。MAFT+框架通过表示补偿和内容依赖迁移优化CLIP的视觉和文本表示,以提升开放词汇分割任务性能。

图片

创新点:

(1)本文提出的MAFT+代表了首个协同框架,用于在开放词汇分割(OVS)中联合优化视觉-文本表示。这种协同设计减少了训练复杂性,并增强了视觉-文本特征空间的一致性。

(2)提出了内容依赖的迁移(Content-Dependent Transfer),通过参数高效的微调释放了CLIP-T的优化潜力。表示补偿(Representation Compensation)实现了有效的CLIP-V微调,同时保持了原始的零样本能力。

结果:

图片

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值