【DL】——多任务学习

最新推荐文章于 2024-09-26 13:36:58 发布

农夫山泉2号

最新推荐文章于 2024-09-26 13:36:58 发布

阅读量259

点赞数

分类专栏： Multask 文章标签：多任务

原文链接：https://baijiahao.baidu.com/s?id=1625678337373471778&wfr=spider&for=pc

版权

Multask 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

dl

参考自所有的参考文章。

1. 整合损失

我们尝试的第一个方法是将不同损失简单相加。很快我们就发现，虽然某一个任务会收敛得到不错的结果，其他的却表现很差。进一步研究后，可以很容易地明白原因：不同任务损失的尺度差异非常大，导致整体损失被某一个任务所主导，最终导致其他任务的损失无法影响网络共享层的学习过程。

一个简单的解决方案是，将损失简单相加替换为加权和，以使所有任务损失的尺度接近。但是，这引入了另一个可能需要不时进行调节的超参数。

幸运的是，我们发现了一篇非常棒的论文《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》，提出引入不确定性来确定 MTL 中损失的权重：在每个任务的损失函数中学习另一个噪声参数（noise parameter）。此方法可以接受多任务（可以是回归和分类），并统一所有损失的尺度。这样，我们就能像一开始那样，直接相加得到总损失了。

2. 调整学习率

调节神经网络有一个通用约定：学习速率是最重要的超参数之一。所以我们尝试调节学习速率。我们发现，对于某一个任务 A 而言，存在一个特别适合的学习速率，而对于另一个任务 B，则有不同的适合学习速率。如果选择较高的学习速率，可能在某个任务上出现神经元死亡（由于大的负梯度，导致 Relu 函数永久关闭，即 dying ReLU），而使用较低的学习速率，则会导致其他任务收敛缓慢。应该怎么做呢？我们可以在各个「头部」（见上图，即各任务的子网络）分别调节各自的学习速率，而在共享网络部分，使用另一个学习速率。