利用不确定性衡量场景几何和语义损失的多任务学习

MTL中的一个重大挑战源于优化过程本身。特别是,我们需要仔细平衡所有任务的联合训练过程,以避免一个或多个任务在网络权值中具有主导影响的情况。极端情况下,当某个任务的loss非常的大而其它任务的loss非常的小,此时多任务近似退化为单任务目标学习,网络的权重几乎完全按照大loss任务来进行更新,逐渐丧失了多任务学习的优势

Abstract

多任务学习中的多元回归和分类让很多深度学习程序受益,但是多任务网络结构的性能受每一个任务损失函数的权重影响很大,常规的做法是手动调节这些权重参数,毫无疑问,这是一个低效和困难的工作,不同任务损失的尺度差异非常大,导致整体损失被某一个任务所主导,最终导致其他任务的损失无法影响网络共享层的学习过程。这也阻碍了MTL的进一步提升。本文针对多任务学习提出了一种新的策略,即通过考虑每个任务之间的同方差不确定性(homoscedastic uncertainty)来设置不同任务损失函数的权值(关于同方差不确定性的具体含义,我会展开进一步解释)。通过这样的设置,我们就可以同时学习不同单位或者尺度的回归和分类问题。本文将该方法应用于深度回归,语义和实例分割,实验结果表明,这种多任务统一的loss训练优于每一个模型任务单独训练的效果。

Introduction

多任务学习的目的是通过学习多个目标之间的共享表示来提升效率,预测精度和泛化能力。场景理解算法必须同时理解某一个场景中物体的几何形状和语义信息。不同物体之间的尺度是不同的,这就涉及到多任务学习中不同单位尺度物体的分类和回归问题的联合学习,将所有的任务融合到一个统一的模型中去有利于减少算力损耗和达到实时的要求。

同时训练多任务的常规方法是将各任务的loss简单相加或者设置统一的loss权重,更进一步,可能会手动的进行权重调整,上述的所有办法都是笨拙和低效的,因为整体的性能表现是高度依赖每一个loss的权重的,而这个权重的设置却是没有依据可循的,这就造成了矛盾和问题。作者认为,每个任务的最优权重依赖于衡量尺度并且最终依赖于任务噪声的大小

因此在这篇文章中,作者提出了新的权重设计原则,利用同方差的不确定性来结合多个任务的loss,同时学习多目标。作者将同方差不确定性解释为任务相关的权重,并且展示了如何推导一个多任务的损失函数,以及在这个过程中如何平衡不同的回归和分类损失。本文探索了有三个子任务的多任务学习网络,如下图所示,分别是语义分割,实例分割和深度估计,这三个网络具体的作用都很简单,在这里就不详细的解释了,这三个网络的训练设计到回归问题和分类问题。

综上,本文的创新点主要有三:

  1. 提出一种新的多任务学习损失函数权重设置方法即利用同方差不确定性同时学习不同尺度和数量的回归和分类问题。
  2. 提出一个用于语义分割,实例分割和深度回归的统一框架。
  3. 说明了不同loss权值设置对最终多任务网络性能的影响,以及与单独训练的模型相比,如何获得更好的性能提升。

Multi Task Learning with Homoscedastic Uncertainty

1.偶然不确定性
我们初高中学物理的时候,老师肯定提过偶然误差这个词。我们做小车下落测量重力加速度常数的时候,每次获得的值都会有一个上下起伏。这是我们因为气流扰动,测量精度不够等原因所造成的,是无法被避免的一类误差。在深度学习中,我们把这种误差叫做偶然不确定性。

2.认知不确定性
认知不确定性是我们模型中存在的不确定性。就拿我们文章一开始举的例子来说,假设我们训练一个分类人脸和猩猩脸的模型,训练中没有做任何的增强,也就是说没有做数据集的旋转,模糊等操作。如果我给模型一个正常的人脸,或者是正常猩猩的脸,我们的模型应该对他所产生的结果的置信度很高。但是如果我给他猫的照片,一个模糊处理过得人脸,或者旋转90°的猩猩脸,模型的置信度应该会特别低。换句话说,认知不确定性测量的,是我们的input data是否存在于已经见过的数据的分布之中

1 、数据依赖性(异方差不确定性)依赖于输入数据,模型预测结果的残差的方差即随着数据的输入发生变化;

2、任务依赖性(同方差不确定性)是不依赖于输入数据的任意不确定性,它与模型输出无关,是一个在所有输入数据保持不变的情况下,在不同任务之间变化的量,因此,它可以被描述为与任务相关的不确定性,但是作者并没有详细解释在多任务深度学习中的同方差不确定性的严格定义,而是认为同方差不确定性是由于任务相关的权重引起的

Multi-task likelihoods

本小节主要推导一个多任务损失函数,这个损失函数利用同方差不确定性来最大化高斯似然估计。首先定义一个概率模型:

这是对于回归问题的概率模型定义,fw(x)是神经网络的输出,x是输入数据,W是权重

对于分类问题,通常会将输出压入sigmoid中,如下式所示:

接下来,定义多任务的似然函数:

其中,yi是多任务中每个子任务的输出

那么,极大似然估计就可以表示下式,(5)式也表明,该极大似然估计与右边成正比,其中,σ是高斯分布的标准差,也是作为模型的噪声,接下来的任务就是根据W和σ最大化似然分布

以两个输出y1和y2为例:得到如(6)式高斯分布:

则此时的极大似然估计为(7)式:

可以看到,最后一步中用损失函数替换了y和f的距离计算,即:

同理可知L2

继续分析(7)式子可得,我们的任务是最小化这个极大似然估计,所以,当σ(噪声)增大时,相对应的权重就会降低;另一方面,随着噪声σ减小,相对应的权重就要增加

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值