MMoE 多任务学习

背景

论文见[1].
MMoE, Multi-gate Mixture-of-Experts.
底层共享,上层拆塔,是多任务学习的常规实现. 论文提出了使用多个expert(其实就是DNN), 并使用多个gate(expert_num 的 softmax) 的架构设计, 直观明了.
使用场景为: 推荐系统的多目标(ctr,互动率,转化率,etc.)

网络结构

在这里插入图片描述
图: 多任务学习的网络架构演化, c 为MMoE网络架构

gate

在这里插入图片描述
图: 截自论文的 gate 说明.

相关实验

人造数据集

控制回归任务之间label的相关系数, 人造数据集作实验, 666.

内容推荐

含有两个子任务的rank模型, engagement subtask and satisfaction subtask, 可通俗理解为点击率和点赞率,都为二分类.

offline

因为点赞label过于稀疏, 离线只看ctr任务的AUC, 为0.6908.
在这里插入图片描述
图: 两个子任务对应的gate输出的权重分布, 因点赞label稀疏, 所以权重集中在单个expert上, (but why?)

live

相比于单任务模型, ctr持平, 点赞率提升20%.

思考

不同gate为不同task分配不同expert的不同权重, 这种动态作 weighted-sum 的操作, 跟attention 机制的出发点是一样一样的.
还有一篇推荐领域多任务, 阿里的 ESSM.

参考

  1. paper,KDD 2018,Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts.
### 多任务学习在深度学习模型中的应用和实现 #### 定义与背景 多任务学习(MTL)是一种机器学习框架,在该框架下,多个相关任务可以共同训练以改进彼此的泛化能力。通过共享表示层,MTL有助于减少过拟合并提高数据效率。 #### 参数调制与集成方法的应用 为了更好地捕捉不同任务之间的复杂交互模式,研究者引入了参数调制以及基于门控机制的专家混合体架构(MoE)。这些技术允许动态调整各分支网络间的连接强度,并利用一组专门设计的任务特定模块来增强整体表现[^2]。 #### 实现细节 具体来说,Multi-gate Mixture-of-Experts (MMoE) 架构采用了一种新颖的方式来进行跨任务特征融合: 1. 输入经过基础嵌入层处理后分别送入若干个独立工作的子网; 2. 每个子网对应于某一类别的任务群组,并配备有自己的激活函数及正则项; 3. 输出端汇聚来自各个方向的信息流并通过加权求和形成最终预测结果; ```python import tensorflow as tf from tensorflow.keras.layers import Dense, Input def mmoe_model(input_dim, num_experts=8, num_tasks=2): inputs = Input(shape=(input_dim,)) experts_outputs = [] for _ in range(num_experts): expert_output = Dense(64, activation='relu')(inputs) experts_outputs.append(expert_output) task_specific_layers = {} outputs = [] for i in range(num_tasks): gate_weights = tf.nn.softmax(Dense(num_experts)(inputs)) weighted_sum = sum([gate * exp_out for gate, exp_out in zip(tf.split(gate_weights, num_experts), experts_outputs)]) output_layer = Dense(1)(weighted_sum) outputs.append(output_layer) model = tf.keras.Model(inputs=[inputs], outputs=outputs) return model ``` 此代码片段展示了如何构建一个多任务学习模型,其中包含了八个专家单元服务于两个不同的目标任务。每个输入样本都会被传递给所有的专家节点计算其响应值,之后再依据当前实例对于各类别的重要性程度分配相应的权重完成聚合操作。 #### 应用案例分析 一项针对强化学习领域的工作提出了名为SchedNet的方法论,它专注于解决多智能体系统的协同工作难题。在这个场景里,不仅实现了高效的内部通讯协议优化,还促进了群体智慧的有效发挥——即让那些拥有高质量观测视角的成员优先发言指导整个团队前进的方向[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值