MMOE模型

最新推荐文章于 2024-02-28 14:51:11 发布

我话少是因为懒

最新推荐文章于 2024-02-28 14:51:11 发布

阅读量7.8k

点赞数 2

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43543512/article/details/117828437

版权

实习学习模型、算法总结1---MMOE算法模型

原文链接

KDD 2018 | Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

仅自己学习，谈一下宏观理解，更具体以及公示推导请看原文或以下：

详解谷歌之多任务学习模型MMoE(KDD 2018) - 知乎 (zhihu.com)

(2条消息) 多任务学习模型详解：Multi-gate Mixture-of-Experts（MMoE ，Google，KDD2018）_ty44111144ty的博客-CSDN博客

(2条消息) 多目标MMOE_serenysdfg的博客-CSDN博客_mmoe

本质是与Shared-Bottom底层网络共享加深了专业领域程度，同时融入了注意力机制（信息融合）。首先需要学习一下基础知识。

preview

上面是share-bottom和moe的结构，expert0，1，2，3其实就是网络，应该是三个独立的网络目前我的理解，gate也是网络用于产生一组权重来对expert进行加权组合。其实我觉得别人说的蛮清楚的，就抄了下来.

、到这里，其实应该就能解释为什么说moe加深了专业领域，我画了一幅图帮助理解

可以看出，A,B在moe是expert1，2.在shared-bottom中因为只存在一个底层网络，那么只能把两个专家网络融合，这样势必降低了专业领域的程度.其实很好理解，术业有专攻，shared-bottom的底层要为多个任务同时提供底层时，就需要对任何一个任务都偏向也就是对任何一个都不完全偏向。

那么在moe中

底层网络被拆成更具体的expert网络，每一个expert都有自己擅长的领域，当做任务时，通过gate网络进行选择expert网络，那么gate时如何选择的呢，其实这个可以理解成bert模型里的自注意力机制，gate网路的作用是生成一组权重，将expert加权求和输出，当权重为0，那么就不选择这部分expert，也就是说这部分expert不擅长他。

假如我任务1是识别猫，任务2是识别狗。gate分别会输出1 0和0 1两组权重，用更擅长更专业的底层去做这件事情，当我们要识别老虎时，老虎跟猫更相似可能gate就会输出 0.9 0.1这样对任务的区分度就更好效果肯定也更好。到这里就是mmoe的宏观理解

下面是mmoe的具体结构

我话少是因为懒

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
MMOE模型

MMOE模型本质是与Shared-Bottom底层网络共享加深了专业领域程度，同时融入了注意力机制（信息融合）
复制链接

扫一扫

我话少是因为懒 CSDN认证博客专家 CSDN认证企业博客

码龄5年

29: 原创

64万+: 周排名

110万+: 总排名

1万+: 访问

: 等级

290: 积分

1: 粉丝

7: 获赞

0: 评论

19: 收藏

私信

关注

热门文章

分类专栏

java 14篇

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。