LIMoE:稀疏化专家混合模型(Sparse Mixture-of-Experts Models)

密集模型(dense model):同时学习或顺序学习多个任务

缺点:任务太多时不如针对每个任务训练一个模型,又或者随着新任务的增加而导致模型对之前任务的作用效果变差,从而表现出灾难性遗忘现象。

稀疏化模型(sparse model) :不是对每个输入都使用模型的每个部分进行处理,而是采用条件计算学习将输入路由到巨大网络中的不同“专家”处。

优点:“专家”在专注于不同的任务或数据类型时,仍然可以使用模型的共享部分。可以避免灾难性遗忘现象。

待解决现状:多模态对比学习的方法,它需要对图像和文本都有扎实的理解,以便将图片与正确的文本描述对齐。迄今为止,解决此任务的最强模型均依赖于每种模态的独立网络(“双塔”方法)。 

LIMoE: 

使用多专家来进行图像-文本对比学习,首次将稀疏化方法用在了图像文本混合模型上利用稀疏化的方法,让每次输入只需激活部分网络就能完成任务。它们在模型内部设置了很多“专家”,每个“专家”只需处理对应部分的输入,根据任务情况按需使用“专家”就好,但也不是完全割裂开来,模型内部仍有可共享的部分。这样一来,模型大小可以增加(由于多个专家组合),计算成本不变(稀疏激活),而且还不会降低性能。

具体细节:

跟MoE一样,在Transformer架构的基础上,加设了“专家层”(例如:NLP中的gShard和ST-MoE,CV中的Vision MoE)。不同于基础的Transformer使用前馈网络(单个FFN),它是一个并行的FNN组成专家层,每个FFN都是一个专家。给定要处理的令牌序列,一个简单的学习路径层会预测哪些专家应该处理哪些令牌,每个令牌会激活少量专家。这里的“专家”,也就是模型内部的不同子模型。每一层中的专家由门控网络控制,该网络根据输入数据激活专家。

在以往的MoE模型中,为了避免路径不平衡(所有的信息都只由一个专家处理,这种独特的失败模式),使用辅助损失来鼓励平衡专家使用额外培训目标相互作用来解决。但在多模态与稀疏性问题上,相互作用会导致现有辅助损失失效。对此LIMoE开发了新的辅助损失,并设置路径优先级

其中图像专家之间也有一些明确的定型模式——例如在大多数LIMoE中,有一个专家处理所有包含文本的图像块。在下面的示例中,一位专家处理动物和绿色植物,另一位专家处理人的手。 

优点:

(1)规模;

(2)在利用不同任务和模态的信息时能避免其相互干扰。稀疏条件计算是兼顾两者的绝佳方式,它支持高性能和高效的通用模型,并且这些模型能在单个任务中表现出色的性能和灵活性,而LIMoE证明了这一点。

 学习资料:https://www.youtube.com/watch?v=i-V33KEwX00

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值