如何提升CLIP的组合推理能力？这十篇顶会论文供你参考！

最新推荐文章于 2025-05-17 13:34:47 发布

小天才学习机打游戏

最新推荐文章于 2025-05-17 13:34:47 发布

阅读量982

点赞数 25

文章标签：人工智能计算机视觉知识图谱学习 gpt 大数据

本文链接：https://blog.csdn.net/m0_59164520/article/details/144042225

版权

1、[ICLR2023] When and why vision-language models behave like bags-of-words, and what to do about it?

论文链接：https://arxiv.org/abs/2210.01936

Github地址：https://github.com/vinid/neg_clip

主要内容：

创建ARO基准测试：作者创建了一个新的基准测试，名为Attribution, Relation, and Order (ARO)，用于系统地评估VLMs对不同类型的关系、属性和顺序信息的理解能力。

作者提出了一种简单的改进方法，即在对比学习中使用“组合感知的硬负样本”（composition-aware hard negative mining）。这包括两个主要步骤：

1）生成负向文本：通过交换图像-文本对中的不同语言元素（如名词短语、名词、形容词、副词、动词短语）来生成负向文本。

2）采样强替代图像：使用CLIP计算数据集中所有图像之间的成对相似性，并在训练过程中为每个图像采样一个最近的邻居作为强替代图像。

2、[NAACL2024] ComCLIP: Training-Free Compositional Image and Text Matching

论文链接：https://arxiv.org/abs/2211.13854

Github地址：https://github.com/eric-ai-lab/ComCLIP

主要内容：

ComCLIP基于结构因果模型（SCMs）和独立机制（IMs）的原则，将输入图像解耦为包含细粒度组合概念的子图像（对象、主题、谓语），并利用这些解耦的图像实体与文本实体进行匹配。

本文利用独立机制（IM）假设，将图像生成过程分解为三个独立的机制：对象机制、主题机制和谓语机制。通过这些机制生成仅包含特定实体（对象、主题、谓语）的反事实子图像。

为了减少预训练模型中错误关系的影响，ComCLIP使用后门调整（backdoor adjustment）技术来减少这些混杂因素（confounders）的影响。

为了验证方法的有效性，本文还引入了一个新的数据集Compositional Visual Genome（ComVG），包含5400个图像-文本对，并带有主题、动词和宾语的注释。

3、[EMNLP2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

论文链接：https://arxiv.org/abs/2410.05210

Github地址：https://github.com/ytaek-oh/fsc-clip

主要内容:

FSC-CLIP采用局部硬负例损失，利用图像块和文本标记之间的密集对齐来计算损失。这种方法通过在局部层面（即图像块和文本标记之间的对齐）增强模型对原始文本和硬负例文本之间细微差异的捕捉能力，从而在不破坏多模态表示的情况下提高组合理解。

为了减轻由相似编码的硬负例和原始文本引起的硬负例损失的不利影响，FSC-CLIP引入了选择性校准正则化。通过基于置信度的加权机制减少对自信预测的监督信号，更多地关注具有挑战性的硬负例文本。除此之外，通过为标签向量应用平滑参数，为硬负例文本分配轻微的正边距，而不是将它们严格分类为完全负面。这有助于在训练中保持模型的表示。

4、[NeurIPS2024] TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives

论文链接：https://arxiv.org/abs/2411.02545

Github地址：https://github.com/tripletclip/TripletCLIP

主要内容：

生成负样本：利用LLM的上下文学习能力生成与正样本语义上相似但有显著差异的hard negative caption。这些负标题在语言上是合理且准确的，但描述的内容与原图像不匹配；使用预训练的文本到图像扩散模型（如SDXL-turbo）根据上述生成的负标题生成相应的负图像。这样，每个正图像-文本对都有一个对应的负图像-文本对，增加了数据集中的“困难”样本。

三元组对比学习：提出了一种新的三元组对比损失函数，用于在训练中有效地整合硬负样本对。第一个三元组(X, Y, Y’)通过将正图像X与正文本Y拉近，与负文本Y’推远，来增强模型对正样本的理解。第二个三元组(X’, Y’, Y)通过将负图像X’与负文本Y’拉近，与正文本Y推远，来增强模型对负样本的理解，并利用负样本来正则化负文本的影响，稳定预训练过程。

5、[CVPR2024] Iterated Learning Improves Compositionality in Large Vision-Language Models

论文链接：https://arxiv.org/abs/2404.02145

Github地址：https：//github.com/hellomuffin/iterated-learning-for-vlm

主要内容：

本文将视觉-语言对比学习重新框架化为Lewis信号游戏，其中视觉代理（Vision Agent, VA）和语言代理（Language Agent, LA）通过受限的符号进行通信，以解决对象参考问题。

本文还引入一个共享的、有限的Codebook作为两个代理之间通信的基础，以此限制和规范它们使用的“词汇表”。这有助于模型学习到更加规范和可解释的表示。

在每个迭代周期中，本文首先通过蒸馏阶段将旧的语言代理的知识传递给新的语言代理，然后进入交互阶段，允许两个代理在对比学习的目标下自由交互。

6、[AAAI2024] Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations

论文链接：https://arxiv.org/abs/2305.06152

Github：https://github.com/zjukg/Structure-CLIP

主要内容:

本文利用场景图来指导构建具有相同词汇组成但不同详细语义的高质量负样本。这种方法与NegCLIP中的随机交换单词的方法不同，它使用场景图知识来构建更符合原始意图的单词交换。

本文提出了一个利用场景图作为输入来整合结构化知识的知识增强编码器（KEE）。这个编码器明确地将详细的知识（例如对象、对象的属性和对象间的关系）作为模型输入，使模型能够获得对文本的细粒度语义的更深入理解。

7、[NeurIPS2024] Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models

论文链接：https://arxiv.org/pdf/2305.19595

Github地址：https://github.com/SivanDoveh/DAC

主要内容:

本文使用图像标题生成模型（如BLIP2）来生成与图像更紧密对齐的文本，从而提高文本与图像的一致性。为了增加标题信息密度，本文使用LLM（如GPT-Neo-2.7B）基于给定标题生成额外的信息，并使用SAM模型对图像进行过分割，生成一组语义上一致的图像段，然后为每个图像段生成标题。并基于上述生成的文本通过改变其中的单词来生成负面文本样本。

为了处理由标题密度增强步骤引入的噪声，本文提出了一种多实例学习方法，该方法将负面文本增强与多实例学习损失结合起来，以更有效地利用生成的标题集合。

为了减少在较小规模数据集上微调可能导致的对原始模型（如CLIP）强大线性转移能力的遗忘，本文采用了参数高效微调技术（如LoRA），以微调而非冻结模型的参数。

8、[CVPR2024] Contrasting intra-modal and ranking cross-modal hard negatives to enhance visio-linguistic compositional understanding

论文链接：https://arxiv.org/abs/2306.08832

Github地址：https://github.com/lezhang7/Enhance-FineGrained

主要内容:

为了增强模型的组合理解，本文使用自然语言处理工具（如Spacy）进行词性标注解析，并通过RoBERTa等语言模型来生成硬负样本。

本文引入了两种新的损失函数，专门应用于自动生成的硬负样本：内模态对比损失（Intra-Modal Contrastive Loss）：鼓励模型最大限度地区分硬负样本，同时保持多模态对齐能力。跨模态排名损失（Cross-Modal Rank Loss）：通过一个自适应阈值来确保图像-文本对的相似性得分高于任何硬负样本的相似性得分。

自适应阈值策略：本文提出了一种自适应阈值策略，该策略根据模型在训练过程中的表现动态调整阈值，以实现更稳定的训练过程和更好的泛化能力。

9、[ECCV2024] Improving Vision and Language Concepts Understanding with Multimodal Counterfactual Samples

论文链接：https：//www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08703.pdf

Github地址：https://github.com/laichengen/COMO

主要内容：

本文提出了一个多模态反事实数据集（COCO-CF），该数据集是通过从现成的语言模型和稳定扩散中注入概念自动生成的。

本文提出了一个新颖的对比框架（COMO），有效利用COCO-CF，将多模态反事实样本视为难负样本，并在对比学习中重新调整它们的重要性，促使VL模型区分原始概念和替换概念。

10、[ECCV2024] The Hard Positive Truth about Vision-Language Compositionality

论文链接：https://arxiv.org/abs/2409.17958

Github地址：https：//github.com/amitakamath/hard_positives

主要内容：

本文通过创建一个新的评估数据集，包含112,382个硬负例和硬正例，来评估现有视觉-语言模型（如CLIP）的性能。通过分析了仅使用硬负例进行微调（fine-tuning）的方法，发现这种方法会导致模型变得过于敏感，即错误地降低了硬正例的得分。这表明模型并没有真正理解复合性。

本文提出了一种新的训练方法，即在微调过程中同时使用硬负例和硬正例，通过使用大型语言模型（如LLAMA-2 70B-Chat）生成了大量的硬正例和硬负例，作为训练数据。这些数据被用来对CLIP模型进行微调。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述