多任务学习

henyaoyuancc

已于 2024-05-14 09:06:56 修改

阅读量287

点赞数

分类专栏：深度学习文章标签：学习深度学习 pytorch

于 2022-06-02 14:55:07 首次发布

本文链接：https://blog.csdn.net/henyaoyuancc/article/details/125100671

版权

深度学习专栏收录该内容

16 篇文章 1 订阅

订阅专栏

多任务学习

1 简介
2 多任务权重自动训练
GradNorm自适应loss平衡的梯度归一化

1 简介

2 多任务权重自动训练

论文：Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
多任务不同的loss调参比较麻烦，如何能够使参数自动训练，公式推到请详见论文
假设有两个损失L1和L2，可以这样设计权重公式，a和b可以自动训练
在这里插入图片描述

a = torch.zeros((1,)).cuda()
a.requires_grad = True
b = torch.zeros((1,)).cuda()
b.requires_grad = True
#把权重和模型参数组到一起，使用优化器训练
params = ([p for p in modle.parameters()] + [a] + [b])
optimizer = torch.optim.Adam(params, lr=, betas=, eps=, weight_decay=)

调参经验
多任务的权重非常重要，尤其是dataset分开的时候，可以和单任务的loss做比较，训练过程可能需要动态调整loss

GradNorm自适应loss平衡的梯度归一化

现状和解决目标

多任务学习有利用多个监督信号提高模型效果的能力，同时单个多任务模型一次输出多个任务预估指，可以显著降低维护多个模型的投入。因此在实际工业场景中，多任务模型应用很广泛。

但是多个任务同时训练会面临如下问题：

1、多个任务对应的loss可能偏差比较大，如同时训练回归任务和分类的任务的loss可能存在数量级差异；部分任务主导训练过程，该任务的梯度下降较快，模型容易朝该任务的梯度方向收敛。

2、不同的任务的学习难度可能不一样。点击和（自动）播放等动作可能当前展示展示内容直接影响；给主播送礼或者下单成交，甚至留存等动作用户的决策过程更复杂，影响因素更多，预估难度可能更大，收敛速度更低。

3、多个任务的重要度可能会发生变化：随着业务的变化，任务的重要度可能发生变化，如业务初期面临数量要求，可能关注点击等任务，后期跟注重质量，可能关注实际转化等任务；不同的样本对不同的任务有不同的影响。所以任务重要度需要能自适应的调节。

我们希望不同任务都能合理有效的自己收敛到最优值。所有任务都能收敛到最优值是理想状态，实际情况可能很难达到，尤其是多个任务是不相关任务。

权重自适应调节平衡不同的任务的收敛速度，有助于不同的任务收敛到最优值。最终如何评估权重自适应调节进一步研究。

解决方案

《GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks》提出多任务权重的自适应调节的方法，希望多个任务的loss下降处于平衡状态。降低loss下降速度快的速度。提高loss下降速度快的速度。
在这里插入图片描述