简介
语言监督下的多模态对比学习代表了现代机器学习的范式转变。通过在网络规模数据集上进行预训练,多模态对比学习可以学习表现出令人印象深刻的鲁棒性和可迁移性的高质量表示。尽管它在经验上取得了成功,但理论理解仍处于起步阶段,尤其是与单模态对比学习的比较。在这项工作中,文中引入了一个特征学习理论框架,为理解多模态和单模态对比学习之间的差异提供了理论基础。基于由信号和噪声组成的数据生成模型,文中对使用 InfoMax 目标函数训练的 ReLU 网络进行分析。通过基于轨迹的优化分析和对下游任务的泛化表征,确定了影响多模态和单模态对比学习在下游任务中的泛化性的关键因素,即信噪比(SNR) 。通过两种模态之间的协作,多模态学习可以实现更好的特征学习,从而导致下游任务的性能比单模态学习有所提高。文中提供了一个统一的框架,可以描述单模态和多模态对比学习的优化和泛化。在合成数据集和真实数据集上进行的经验实验进一步巩固了理论成果。
研究动机
尽管多模态对比学习取得了前所未有的成功,但导致更高性能的基本机制,特别是与单模态对比学习相比,仍然尚未得到充分探索。最近,一些开创性的著作为单模态或多模态对比学习提供了理论解释。例如,通过分析其特征学习过程,研究了单模态对比学习如何学习神经网络的特征表示。至于多模态对比学习,文献[12,58]解释了为什么多模态对比学习比监督学习表现出零样本可迁移性和对分布变化的鲁棒性,这提供了有价值的见解。尽管现有的两方面工作都在各自的背景下提供了有效的理论见解,但很少有工作在统一的框架下比较两种类型的对比学习的优化和泛化。这促使我们为单模态和多模态对比学习建立系统的特征学习分析。
特别是,考虑一个包含两种数据模态的数据生成模型,这些数据模态是根据信号和噪声特征生成的。信号特征在不同模态中具有相关性,而噪声特征在模态间不存在相关性。文中研究了梯度下降训练下单模态和多模态对比学习的优化。通过研究信号学习和噪声记忆的轨迹,建立了收敛条件并进一步表征了下游任务的泛化能力。结果表明,通过模态之间的合作,多模态对比学习可以在下游任务中实现更好的泛化。相反,如果没有第二种模态的帮助,单模态对比学习集中于从数据中学习噪声,因此对下游任务的概括性较差。
论文贡献
-
这项工作为非凸设置下梯度下降训练下的单模态和多模态对比学习建立了第一个系统的比较优化分析。证明了通过克服非凸困难,单模态和多模态都可以在多项式迭代后在 InfoMax 对比损失下实现接近于零的训练误差。
-
通过对来自数据的ReLU 网络的信号学习和噪声记忆进行基于轨迹的分析,成功地描述了单模态和多模态对比学习之间的泛化差异。不同模态的不同信噪比导致两个对比学习框架下游任务的泛化存在差异。
-
文中理论表明,多模态相对于单模态对比学习的优势来自于第二种模态的高质量以及两种模态通过对比学习进行的合作。这种分歧最终体现在特征学习的差异以及下游任务泛化的最终差距上。
方法
单模态对比学习
使用带有 ReLU 激活的单层神经网络 作为编码器,其中 m 是神经元的数量,代表嵌入维度。更准确地说,
令 σ 对于 , ,并且 σ(·) 是 ReLU 激活函数。采用高斯初始化权重 ,其中 作为强度。
给定一对正数据样本,对比损失函数基于相似性度量,定义为两个样本 x 的表示之间的内积,
其中 是停止梯度操作,它受到最近的实证工作 [19, 10] 和研究对比学习的理论工作的启发。这里将正样本定义为:
特别是,考虑了信号保持不变而噪声向量因添加的独立噪声而被破坏的增强形式。 文中考虑对比损失如下:
文中使用梯度下降来优化对比学习损失,从而导致梯度更新:
其中,将 表示为学习率,并将损失导数定义为:
直观上,当正对之间的相似度较高,而负时间之间的相似度较低时,我们可以看到 和 ,因为 且 。因此,梯度下降接近于零,表明结果接近收敛。此外,权重的演化方向由信号向量 μ 和噪声向量 组成,其中 。
多模态对比学习
使用两个神经网络和 分别编码两个输入模态 x 和 。两个神经网络都使用 ReLU 激活函数。更准确地说,
令 和 。这里 σ(·) 是 ReLU 激活函数, 和 对于r \in [m] $是两个网络中的权重。给定嵌入,两种模态的相似度函数定义为:
上面定义的两个相似度函数以模态为中心,并应用停止梯度操作。对比多模态学习的目标函数可以表示为:
与单模态学习相同,其目标函数由式(1)控制。 多模态对比学习的目标函数采用1个正对和M个负对。此外,我们要求负对不共享相同的标签。为了优化多模态学习的目标函数,应用梯度下降同时训练两个编码器。第一模态网络的梯度下降规则由以下表达式控制。
这里稍微滥用了符号,文中使用 , 来表示两种模态的损失导数。与信号模态学习相比,多模态学习的主要区别在于相应的嵌入来自另一种模态。可以类似地导出第二模态的梯度更新。
下游任务评估
为了评估单模态和多模态对比学习在下游任务中的分布外泛化性能,考虑一个测试分布 ,其中样本 生成如下。
测试信号 满足 ,测试噪声 ,并且 服从 Rademacher 分布。在训练完成后,在学习到的嵌入 顶部引入一个线性头部以适应测试分布,即
。
具体而言,考虑分类任务,并定义总体 0-1 测试误差为
主要结果
文中这部分主要介绍关键理论发现,通过特征学习分析阐明了单模态和多模态对比学习的优化和泛化结果。对梯度下降引起的迭代使用基于轨迹的分析,然后对下游测试集的性能进行训练后分析。下面给出主要假设和主要定理。
(1)采用高维设置来保证足够的超参数化。 (2,3) 选择学习率和初始化强度以确保梯度下降能够有效地最小化对比损失。 (4)隐藏层大小m和训练样本数n的选择是为了提供足够的集中度。 (5)设置增强的强度以保持两个正样本之间的相似性。 (6) 样本数与信噪比的关系是为了区分单模态和多模态对比学习的特征学习过程。 (7)为了区分单模态和多模态对比学习,引入了常数Cμ,它使得多模态对比学习中两种模态之间能够合作。
定理4.2指出,尽管单模态对比学习实现的训练误差很小,但下游任务的测试误差很大。
定理4.3表明,经过训练的多模态对比学习可以实现较小的训练误差和下游测试误差。与定理4.2相比,定理4.3表明多模态对比学习在下游任务中的泛化能力优于单模态对比学习。造成这种差异的原因是两种模模态可以相互合作:一种模态的更高质量可以促进目标模态的特征学习,有助于推广到下游任务。相反,增强通常保持与原始数据相同的信噪比,因此单模态学习很难从增强中受益,只能记住数据中的噪声,这不适用于下游任务。
大模型&AI产品经理如何学习
求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。
1.学习路线图
第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;
第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;
第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;
第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;
第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;
第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;
第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。
2.视频教程
网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。
(都打包成一块的了,不能一一展开,总共300多集)
因篇幅有限,仅展示部分资料,需要点击下方图片前往获取
3.技术文档和电子书
这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
4.LLM面试题和面经合集
这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;
• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;
• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;
• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集
👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓