Multi-task中的多任务loss平衡问题

最新推荐文章于 2025-05-03 09:07:35 发布

Multi-task

最新推荐文章于 2025-05-03 09:07:35 发布

阅读量1.5w

点赞数 5

分类专栏：机器学习推荐算法文章标签： multi-task

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34527082/article/details/100048864

版权

Multi-task learning MTL 中的多任务loss平衡问题

背景
7 Nov 2017 - GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
19 May 2017 - Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
10 Oct 2018 - Multi-Task Learning as Multi-Objective Optimization
- 该文的方法

背景

multi-task的损失函数:
$L(t)=\sum{w_i(t)L_i(t,\theta)}$
在multi-task训练中存在着:

如何平衡各个任务损失的权重,
对于不同的任务的loss梯度之间的大小关系如果平衡,
各任务学习率如何控制.

这些问题影响mult-task训练的最终效果. 处理不当, 很有可能一个task学的很好, 其他task学的很差.
三个问题是相通的.

7 Nov 2017 - GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks

论文地址
GradNorm的解决方法, 将 $w_i$ 作为可学习的参数.
目标是:

在不考虑学习率的情况下, 尽量使得各个task的 $w_i(t)L_i(t,\theta)$ 对于参数 $\theta$ 的gradient都与平均值接近.
学习不充分的task, 给与比其他task更大的学习率.

$t$ 时间task $i$ 的 $\theta$ 梯度:
$G_\theta^{(i)}(t)=\Vert \bigtriangledown_{\theta}w_i(t)L_i(t,\theta)\Vert_2$
所有task对 $\theta$ 的平均梯度:
$\overline{G}_\theta(t)=E_{task}[G_\theta^{(i)}(t)]$
对于学习率, 定义若干个变量:
定义一个loss相对于初始化时的占比, 优化程度.
$\widetilde{L}_i(t)=L_i(t)/L_i(0)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。