1、[ICLR2023] When and why vision-language models behave like bags-of-words, and what to do about it?
论文链接:https://arxiv.org/abs/2210.01936
Github地址:https://github.com/vinid/neg_clip
主要内容:
创建ARO基准测试:作者创建了一个新的基准测试,名为Attribution, Relation, and Order (ARO),用于系统地评估VLMs对不同类型的关系、属性和顺序信息的理解能力。
作者提出了一种简单的改进方法,即在对比学习中使用“组合感知的硬负样本”(composition-aware hard negative mining)。这包括两个主要步骤:
1)生成负向文本:通过交换图像-文本对中的不同语言元素(如名词短语、名词、形容词、副词、动词短语)来生成负向文本。
2)采样强替代图像:使用CLIP计算数据集中所有图像之间的成对相似性,并在训练过程中为每个图像采样一个最近的邻居作为强替代图像。
2、[NAACL2024] ComCLIP: Training-Free Compositional Image and Text Matching
论文链接:https://arxiv.org/abs/2211.13854
Github地址:https://github.com/eric-ai-lab/ComCLIP
主要内容:
ComCLIP基于结构因果模型(SCMs)和独立机制(IMs)的原则,将输入图像解耦为包含细粒度组合概念的子图像(对象、主题、谓语),并利用这些解耦的图像实体与文本实体进行匹配。
本文利用独立机制(IM)假设,将图像生成过程分解为三个独立的机制:对象机制、主题机制和谓语机制。通过这些机制生成仅包含特定实体(对象、主题、谓语)的反事实子图像。
为了减少预训练模型中错误关系的影响,ComCLIP使用后门调整(backdoor adjustment)技术来减少这些混杂因素(confounders)的影响。
为了验证方法的有效性,本文还引入了一个新的数据集Compositional Visual Genome(ComVG),包含5400个图像-文本对,并带有主题、动词和宾语的注释。
3、[EMNLP2024] Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality
论文链接:https://arxiv.org/abs/2410.05210
Github地址:https://github.com/ytaek-oh/fsc-clip
主要内容:
FSC-CLIP采用局部硬负例损失,利用图像块和文本标记之间的密集对齐来计算损失。这种方法通过在局部层面(即图像块和文本标记之间的对齐)增强模型对原始文本和硬负例文本之间细微差异的捕捉能力,从而在不破坏多模态表示的情况下提高组合理解。
为了减轻由相似编码的硬负例和原始文本引起的硬负例损失的不利影响,FSC-CLIP引入了选择性校准正则化。通过基于置信度的加权机制减少对自信预测的监督信号,更多地关注具有挑战性的硬负例文本。除此之外,通过为标签向量应用平滑参数,为硬负例文本分配轻微的正边距,而不是将它们严格分类为完全负面。这有助于在训练中保持模型的表示。
4、[NeurIPS2024] TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives
论文链接:https://arxiv.org/abs/2411.02545
Github地址:https://github.com/tripletclip/TripletCLIP
主要内容:
生成负样本:利用LLM的上下文学习能力生成与正样本语义上相似但有显著差异的hard negative caption。这些负标题在语言上是合理且准确的,但描述的内容与原图像不匹配;使用预训练的文本到图像扩散模型(如SDXL-turbo)根据上述生成的负标题生成相应的负图像。这样,每个正图像-文本对都有一个对应的负图像-文本对,增加了数据集中的“困难”样本。
三元组对比学习:提出了一种新的三元组对比损失函数,用于在训练中有效地整合硬负样本对。第一个三元组(X, Y, Y’)通过将正图像X与正文本Y拉近,与负文本Y’推远,来增强模型对正样本的理解。第二个三元组(X’, Y’, Y)通过将负图像X’与负文本Y’拉近,与正文本Y推远,来增强模型对负样本的理解,并利用负样本来正则化负文本的影响,稳定预训练过程。
5、[CVPR2024] Iterated Learning Improves Compositionality in Large Vision-Language Models
论文链接:https://arxiv.org/abs/2404.02145
Github地址:https://github.com/hellomuffin/iterated-learning-for-vlm
主要内容:
本文将视觉-语言对比学习重新框架化为Lewis信号游戏,其中视觉代理(Vision Agent, VA)和语言代理(Language Agent, LA)通过受限的符号进行通信,以解决对象参考问题。
本文还引入一个共享的、有限的Codebook作为两个代理之间通信的基础,以此限制和规范它们使用的“词汇表”。这有助于模型学习到更加规范和可解释的表示。
在每个迭代周期中,本文首先通过蒸馏阶段将旧的语言代理的知识传递给新的语言代理,然后进入交互阶段,允许两个代理在对比学习的目标下自由交互。
6、[AAAI2024] Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal Structured Representations
论文链接:https://arxiv.org/abs/2305.06152
Github:https://github.com/zjukg/Structure-CLIP
主要内容:
本文利用场景图来指导构建具有相同词汇组成但不同详细语义的高质量负样本。这种方法与NegCLIP中的随机交换单词的方法不同,它使用场景图知识来构建更符合原始意图的单词交换。
本文提出了一个利用场景图作为输入来整合结构化知识的知识增强编码器(KEE)。这个编码器明确地将详细的知识(例如对象、对象的属性和对象间的关系)作为模型输入,使模型能够获得对文本的细粒度语义的更深入理解。
7、[NeurIPS2024] Dense and Aligned Captions (DAC) Promote Compositional Reasoning in VL Models
论文链接:https://arxiv.org/pdf/2305.19595
Github地址:https://github.com/SivanDoveh/DAC
主要内容:
本文使用图像标题生成模型(如BLIP2)来生成与图像更紧密对齐的文本,从而提高文本与图像的一致性。为了增加标题信息密度,本文使用LLM(如GPT-Neo-2.7B)基于给定标题生成额外的信息,并使用SAM模型对图像进行过分割,生成一组语义上一致的图像段,然后为每个图像段生成标题。并基于上述生成的文本通过改变其中的单词来生成负面文本样本。
为了处理由标题密度增强步骤引入的噪声,本文提出了一种多实例学习方法,该方法将负面文本增强与多实例学习损失结合起来,以更有效地利用生成的标题集合。
为了减少在较小规模数据集上微调可能导致的对原始模型(如CLIP)强大线性转移能力的遗忘,本文采用了参数高效微调技术(如LoRA),以微调而非冻结模型的参数。
8、[CVPR2024] Contrasting intra-modal and ranking cross-modal hard negatives to enhance visio-linguistic compositional understanding
论文链接:https://arxiv.org/abs/2306.08832
Github地址:https://github.com/lezhang7/Enhance-FineGrained
主要内容:
为了增强模型的组合理解,本文使用自然语言处理工具(如Spacy)进行词性标注解析,并通过RoBERTa等语言模型来生成硬负样本。
本文引入了两种新的损失函数,专门应用于自动生成的硬负样本:内模态对比损失(Intra-Modal Contrastive Loss):鼓励模型最大限度地区分硬负样本,同时保持多模态对齐能力。跨模态排名损失(Cross-Modal Rank Loss):通过一个自适应阈值来确保图像-文本对的相似性得分高于任何硬负样本的相似性得分。
自适应阈值策略:本文提出了一种自适应阈值策略,该策略根据模型在训练过程中的表现动态调整阈值,以实现更稳定的训练过程和更好的泛化能力。
9、[ECCV2024] Improving Vision and Language Concepts Understanding with Multimodal Counterfactual Samples
论文链接:https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/08703.pdf
Github地址:https://github.com/laichengen/COMO
主要内容:
本文提出了一个多模态反事实数据集(COCO-CF),该数据集是通过从现成的语言模型和稳定扩散中注入概念自动生成的。
本文提出了一个新颖的对比框架(COMO),有效利用COCO-CF,将多模态反事实样本视为难负样本,并在对比学习中重新调整它们的重要性,促使VL模型区分原始概念和替换概念。
10、[ECCV2024] The Hard Positive Truth about Vision-Language Compositionality
论文链接:https://arxiv.org/abs/2409.17958
Github地址:https://github.com/amitakamath/hard_positives
主要内容:
本文通过创建一个新的评估数据集,包含112,382个硬负例和硬正例,来评估现有视觉-语言模型(如CLIP)的性能。通过分析了仅使用硬负例进行微调(fine-tuning)的方法,发现这种方法会导致模型变得过于敏感,即错误地降低了硬正例的得分。这表明模型并没有真正理解复合性。
本文提出了一种新的训练方法,即在微调过程中同时使用硬负例和硬正例,通过使用大型语言模型(如LLAMA-2 70B-Chat)生成了大量的硬正例和硬负例,作为训练数据。这些数据被用来对CLIP模型进行微调。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。