Architectures
-
MMoE将bottom拆分成多个expert,不同task对expert进行自适应组合
-
PLE引入task独享expert,与共享expert优化任务间的拉扯
-
MoLA在PLE基础上,通过引入Low-rank Adapters降低模型复杂度(尤其是当task很多时)。并进一步,引入辅助loss Task-wise Decorrela- tion (TwD) ,强制使不同task的组合权重差异化,从而缓解参数纠缠带来的异构冲突问题(b - bath_size)。
-
FDN将特征分解成正交的task特性特征和共性特征两个部分(红框),并对于每个task specific expert都预估该task的label作为辅助loss(蓝框)强化task specific的学习
正交loss
task辅助loss
总loss