论文笔记:Multimodal Contrastive Learning with LIMoEthe Language-Image Mixture of Experts

Multimodal Contrastive Learning with LIMoE:the Language-Image Mixture of Experts

LIMoE的多模态对比学习:专家的语言-图像混合

提出了语言-图像MoE, LIMoE,一种能够进行多模态学习的稀疏混合专家模型。LIMoE同时接受图像和文本,同时使用对比损失进行训练。moe很适合多模态主干,因为专家层可以学习适当的模态划分。然而,新的挑战出现了;特别是训练稳定性和均衡的专家利用,为此我们提出了一种基于熵的正则化方案。在多个尺度上,我们证明了相对于等效计算成本的密集模型的显著性能改进。我们分析了LIMoE的定量和定性行为,并证明了一些现象,如对模式的不同处理和模式特定专家的有机出现。

1 intro

稀疏激活混合专家(MoE)模型最近被有效地用于扩大视觉[1,2]和文本模型[3,4]。使用moe的主要动机是在控制计算成本的同时缩放模型参数。然而,这些模式还有其他好处;例如,稀疏性可以防止连续学习[5]中的灾难性遗忘,并且可以通过提供方便的归纳偏置来提高多任务学习[6]的性能。

与生物神经网络相比较,现有的深度学习存在诸多缺陷。**灾难性遗忘**就是缺陷之一。所谓的**灾难性遗忘:即学习了新的知识之后,几乎彻底遗忘掉之前习得的内容**。它使得人工智能体**缺乏**像生物一样不断适应环境以及增量式(持续)学习的能力。

鉴于在每个单独领域的成功,以及稀疏模型可能更好地处理不同任务的直觉。我们训练了一个单一的多模态架构,它通过对比学习[7]来对齐图像和文本表示。

当使用先前单模态模型中提出的设置[8,1]时,我们发现将多个模态输入单个架构会导致moe特有的新故障模式。为了克服这些问题,我们提出了一组基于熵的正则器,可以稳定训练并提高性能。我们将结果模型称为LIMoE (Language-Image MoE)。

主要贡献:

•我们提出LIMoE,第一个大规模的多模态混合专家模型。

•我们详细演示了先前正则化专家模型混合的方法如何不适合多模态学习,并提出了一种新的基于熵的正则化方案来稳定训练。

•我们展示了LIMoE在架构尺度上的泛化,与等效的密集模型相比,零镜头ImageNet精度的相对改进范围从7%到13%。进一步缩放,LIMoE-H/14实现了84.1%的零镜头ImageNet精度,与具有每个模态骨架和预训练的SOTA对比模型相当。

•最后,我们提出了消融和分析,以理解模型的行为和我们的设计决策

2 Multimodal Mixture of Experts

多模态对比学习通常使用独立的逐模态编码 。对于图像和文本的对比学习,这种方法产生了一个**“双塔”架构**,每个模式一个。相反,我们研究的是一种单塔设置,其中对所有模式共享一个模型。单塔设计提供了更高的通用性和可伸缩性,以及跨模式和跨任务知识转移的潜力

2.1 多模态对比学习

给定n对图像和文本标题{(ij, tj)} n j=1,模型学习表示Zn = {(zij, ztj)} n j=1,使得配对输入对应的表示在特征空间上比未配对输入对应的表示更接近。

目标函数分别是两者的对比loss和

2.2 The LIMoE Architecture

对于图像和文本形式,我们使用一个基于transformer的架构。该模型使用每个模态的线性层将固有数据维度投影到所需的宽度:对于文本,使用标准的one hot句子编码和学习词汇,对于图像,使用vit风格的基于patch的嵌入[13]。然后,所有标记都由共享transformer encoder,处理,该编码器不显式地以模态为条件。最后一层的标记表示被平均化,为每个模态生成一个表示向量zm。为了计算(1)中的训练损失,配对的图像和文本表示然后使用每模态权重矩阵Wm 's线性投影,Lj应用于{(Wimage zik,Wtext ztk)} n k=1。

这种单塔设置可以用标准的密集Transformer实现(我们将许多这样的模型作为基线进行训练)。接下来,我们将介绍如何将moe引入到LIMoE的这个设置中。

**稀疏MoE骨干:**稀疏MoE层是按照[1,3]的架构设计引入的。

专家(模型中以输入依赖方式激活的部分)是mlp。LIMoE包含多个MoE层。在这些层中,每个令牌x∈R D由E个可用专家中的K个进行稀疏处理。为了选择哪个K,一个轻量级路由器预测每个令牌的门控权重,K个被激活的专家的输出根据门控权重线性组合得到输出。

由于计算效率和实现的限制,专家有一个固定的缓冲区容量。每个专家可以处理的令牌数量事先是固定的,并且通常假设令牌在专家之间大致平衡。如果容量超过,一些令牌将被“丢弃”;它们不是由专家处理的,并且专家的输出对于这些标记都是零。令牌成功处理(即不丢弃)的速率被称为“成功率”。它是健康和平衡的路由的重要指标,经常表明训练的稳定性。

我们发现,使用来自多种模式的令牌进行路由会引入新的故障模式。

2.2.1 Challenges for multimodal MoEs

专家有固定的缓冲容量。如果没有干预,Top-K moe往往会“崩溃”,只使用一个专家。这会导致大多数令牌被丢弃,并导致性能较差。因此,先前的工作使用辅助损失来鼓励平衡路由。

在多模式环境下,会出现新的挑战;一是模式失衡。在实际设置中,一种数据类型可能比另一种数据类型多。因此,我们不假设或强制跨模式的平衡数据,并且我们的实验中图像标记比文本标记多3 - 17倍。

**特定于模式的专家往往会自然而然地出现。**在这种不平衡的情况下,这将导致一种情况,即少数模式中的所有令牌都分配给单个专家,而该专家的容量已耗尽。在全局层面上,路由仍然是平衡的:来自大多数模态的令牌很好地分布在专家之间,从而满足了模态不可知的辅助损失。例如,在我们的标准B/16设置中,**路由器可以通过完美平衡图像令牌而丢弃所有文本令牌,**将重要性损失[14]优化到其最小值的0.5%以内。然而,这会导致不稳定的训练和不表现的模型。

2.2.2 Auxiliary losses

我们将V-MoE[1]中使用的辅助损耗称为经典辅助损耗。我们发现它们不能产生稳定和性能的多模态MoE模型。因此,我们引入了两种新的损失:局部熵损失和全局熵损失,它们应用于每个模态的基础上。我们将这些损失与经典损失结合起来。

fig3:什么需要熵损失?经典是指标准公式(重要性+负荷loss)。我们将局部熵损失添加到文本标记(中间行),然后是全局熵损失(底部行)。

左:“经典”设置是低性能和不稳定的。

右:通过对熵的分析我们可以看出原因:如果没有局部损失,模型在专家偏好上容易出现不稳定的变化(C1),路由成功率很低(A1, B1)。

局部损失修复了这个问题,但导致一个模态(C2)的分布崩溃,所有文本标记都流向一个专家(专家11);这会导致更糟糕的文本成功率(B2)。这是通过全局损失来解决的,它具有稳定的专家分配(C3)和持续的高成功率(A3, B3)。

由于默认损失,特定于模式的专家自然出现,但路由器经常改变其偏好。这导致训练不稳定,成功率低,特别是文本模式。局部熵损失鼓励集中的路由器权重(ptext(experts|xi)具有低熵),但以文本专家的多样性为代价:相同的专家用于所有文本标记(边际p ~ text(experts)也具有低熵),导致下降。在这种设置中,许多层的文本成功率都很低。

为了解决这个问题,**Ωglobal鼓励边际熵的最大化,从而推动p ~ text(专家)朝着更统一的专家分布。结果是多样化的专家使用,稳定和自信的路由,以及高成功率。**因此,这些是性能最好的模型。

2.2.3 优先路由

使用Top-K路由,一些令牌丢弃实际上是不可避免的。批量优先级路由(BPR)[1]根据它们的路由权重主动决定跳过哪些令牌。它假设具有较大路由权重的token可能是有信息的,并且应该受到青睐。BPR主要用于推理时,允许较小的专家容量缓冲区。在这种设置中,必须注意不要系统地偏向一种模式而不是另一种模式,例如,根据批处理中的排序确定要删除哪个令牌,这些令牌通常是根据令牌模式分组的。

BPR在培训期间提供了基本的稳定效果;我们证明了它不会简单地将一个模态排在另一个模态之上,并且它不能被其他重新排序批处理的方法所取代。

3

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值