LIMoE：稀疏化专家混合模型（Sparse Mixture-of-Experts Models）

滢滢码仔

已于 2024-01-22 17:12:47 修改

阅读量523

点赞数 7

分类专栏：多模态学习文章标签：多分类深度学习人工智能

于 2024-01-22 16:12:55 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lyy761370085/article/details/135749715

版权

多模态学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

密集模型(dense model)：同时学习或顺序学习多个任务

缺点：任务太多时不如针对每个任务训练一个模型，又或者随着新任务的增加而导致模型对之前任务的作用效果变差，从而表现出灾难性遗忘现象。

稀疏化模型(sparse model) :不是对每个输入都使用模型的每个部分进行处理，而是采用条件计算学习将输入路由到巨大网络中的不同“专家”处。

优点：“专家”在专注于不同的任务或数据类型时，仍然可以使用模型的共享部分。可以避免灾难性遗忘现象。

待解决现状：多模态对比学习的方法，它需要对图像和文本都有扎实的理解，以便将图片与正确的文本描述对齐。迄今为止，解决此任务的最强模型均依赖于每种模态的独立网络（“双塔”方法）。

LIMoE:

使用多专家来进行图像-文本对比学习，首次将稀疏化方法用在了图像文本混合模型上。利用稀疏化的方法，让每次输入只需激活部分网络就能完成任务。它们在模型内部设置了很多“专家”，每个“专家”只需处理对应部分的输入，根据任务情况按需使用“专家”就好，但也不是完全割裂开来，模型内部仍有可共享的部分。这样一来，模型大小可以增加（由于多个专家组合），计算成本不变（稀疏激活），而且还不会降低性能。

具体细节：

跟MoE一样，在Transformer架构的基础上，加设了“专家层”（例如：NLP中的gShard和ST-MoE，CV中的Vision MoE）。不同于基础的Transformer使用前馈网络（单个FFN），它是一个并行的FNN组成专家层，每个FFN都是一个专家。给定要处理的令牌序列，一个简单的学习路径层会预测哪些专家应该处理哪些令牌，每个令牌会激活少量专家。这里的“专家”，也就是模型内部的不同子模型。每一层中的专家由门控网络控制，该网络根据输入数据激活专家。

在以往的MoE模型中，为了避免路径不平衡（所有的信息都只由一个专家处理，这种独特的失败模式），使用辅助损失来鼓励平衡专家使用额外培训目标相互作用来解决。但在多模态与稀疏性问题上，相互作用会导致现有辅助损失失效。对此LIMoE开发了新的辅助损失，并设置路径优先级

其中图像专家之间也有一些明确的定型模式——例如在大多数LIMoE中，有一个专家处理所有包含文本的图像块。在下面的示例中，一位专家处理动物和绿色植物，另一位专家处理人的手。

优点：

（1）规模；

（2）在利用不同任务和模态的信息时能避免其相互干扰。稀疏条件计算是兼顾两者的绝佳方式，它支持高性能和高效的通用模型，并且这些模型能在单个任务中表现出色的性能和灵活性，而LIMoE证明了这一点。

学习资料：https://www.youtube.com/watch?v=i-V33KEwX00

关注

7
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
LIMoE：稀疏化专家混合模型（Sparse Mixture-of-Experts Models）

它们在模型内部设置了很多“专家”，每个“专家”只需处理对应部分的输入，根据任务情况按需使用“专家”就好，但也不是完全割裂开来，模型内部仍有可共享的部分。这里的“专家”，也就是模型内部的不同子模型。缺点：任务太多时不如针对每个任务训练一个模型，又或者随着新任务的增加而导致模型对之前任务的作用效果变差，从而表现出灾难性遗忘现象。不是对每个输入都使用模型的每个部分进行处理，而是采用条件计算学习将输入路由到巨大网络中的不同“专家”处。优点：“专家”在专注于不同的任务或数据类型时，仍然可以使用模型的共享部分。
复制链接

扫一扫

专栏目录

滢滢码仔 CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

73万+: 周排名

7万+: 总排名

2万+: 访问

: 等级

233: 积分

116: 粉丝

93: 获赞

5: 评论

121: 收藏

私信

关注

热门文章

分类专栏

多模态学习 1篇
GAN 9篇
CSDN 1篇

最新评论

行人重识别数据集生成算法
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
【宝塔+Typecho+Cuteen搭建博客】建了个博客耶
滢滢码仔: 我会继续加油的ヾ(◍°∇°◍)ﾉﾞ
【宝塔+Typecho+Cuteen搭建博客】建了个博客耶
CSDN-Ada助手: 恭喜你建立了自己的博客！看到你的创作热情，真是让人倍感振奋。从标题中可以看出你使用了宝塔、Typecho和Cuteen来搭建博客，这是一项很不容易的任务，但你成功地克服了困难。希望你能继续保持这种创作的劲头！接下来，我想提一个谦虚的建议：在你的博客中，你可以尝试更深入地探索宝塔、Typecho和Cuteen的功能，分享你的使用心得和技巧，这样可以帮助更多的人受益。期待看到你的下一篇博客！加油！
【GAN实战项目：DCGAN in Tensorflow生成动漫人物头像】代码学习
zxshidashuaige: 怎么把这些图片分割呀
【Generative Adversarial Nets 生成对抗网络(GAN) 】学习笔记
滢滢码仔: 确实如您所说，我修改一下~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。