面向可解释深度网络的单目深度估计 Towards Interpretable Deep Networks for Monocular Depth Estimation

Towards Interpretable Deep Networks for Monocular Depth Estimation

面向可解释深度网络的单目深度估计

网络的可解释性:通过数据实验描述神经网络内部每一层甚至是每一个神经元所完成的功能。

0 Abstract

  近期单目深度估计(MDE)取得了可喜的进展,我们有必要进一步了解网络的内部解释性。现在的方法通过视觉线索来提供事后解释,这无法探索深度估计网络的内部表示。在本文中,我们发现网络的一些隐藏单元对深度范围具有选择性,这种行为可以作为内部表示的一种方式。本文采用隐藏单元的深度选择性来量化MDE的可解释性。此外,本文提出了中在不改变其原始框架的情况下训练可解释MDE深度网络的方法,该方法是为每一个隐藏单元分配一个深度范围以供选择。实验结果表明,本文方法可以增强MDE的可解释性通过大大提高MDE的深度选择性,同时不会损害甚至提高深度估计精度。我们的方法在不同层,不同模型和不同数据集上得到了验证。

1 Introduction

  相比于立体图像,MDE对深度估计的要求和成本更低,对于3D场景的理解和自动驾驶的进一步使用至关重要,因此受到了人们的广泛关注。Eigen等人首先提出了深度估计的框架,后续许多研究提出了改进深度估计的方法,这使得深度估计的精度不断的提高,然而,只有少数研究关注了MDE网络的可解释性。由于深度估计可能与自动驾驶等下游任务密切相关,因此MDE模型缺乏可解释性可能会导致严重后果。
  总的来说,理解深层网络是非常有必要的,以前关于视觉深层网络的可解释性的研究主要集中在图像分类和图像生成。对于深度估计,Hu和Dijk等人虽然从像素和语义层面研究了输入图像中的视觉线索,分析了深度估计网络如何从单个图像中恢复出深度信息,但是他们依然讲深度估计网络作为黑匣子,从而减少了对MDE网络内部信息的探索。此外,他们的事后解释可能无法呈现可解释模型中的全部情况。虽然目前已存在一些可解释模型,如图像分类、目标检测和人员重识别,但是这些网络和MDE有很大区别,并不适用于MDE。
  研究表明,神经元单元通常提取不同语义概念层次的特征,从纹理和模式到对象和场景。为了学习可解释的神经网络,一种方法是对内部滤波器学习的表示进行分解,这使得滤波器更加专业化,收到这些作品的启发,我们观察到,在深层MDE网络中,一些隐藏单元在一定深度范围内是具有选择性的。为了量化这一结果,我们计算了每个单元的深度选择性,并从最具深度选择性到最不具深度选择性和其相反的两个方向依次减少了神经元的数量,我们发现从第一个方向去减少神经元的时候会导致深度估计的精度下降的更快,这表明了具备深度选择性的神经元更加重要。平且其深度选择性可以通过深度范围来解释。而MDE网络的可解释性可以通过这些神经元的深度选择性来量化。
  然后,现有的MDE模型中,大多数的单元都不具有深度选择性,为了更好的实现具有可解释性的MDE模型,我们提出了一种简单有效的可解释深度网络,通过最大化内部单元的选择性。我们的方法可以应用在现有的MDE网络而不添加任何的额外注释也不修改其原本框架。并且我们的MDE模型在提高网络可解释性的前提下可以不损害甚至提高网络深度估计的精度。总体贡献如下。

  • 1.基于内部神经元的深度选择性量化了MDE深度网络的可解释性。
  • 2.提出了一种新的方法来增强MDE网络的可解释性。
  • 3.提高网络可解释性的前提下可以不损害甚至提高网络深度估计的精度。

2 Related work

  从图像中估计深度信息是场景理解的一个重要问题,最近提出了包括但不限于几何约束、多尺度网络框架和语义分割等方法来提升深度估计精度。然而这些研究很少关注网络的可解释性,通过修改输入图像Dijk等人研究了网络在预测深度时所利用的视觉线索。Hu等人研究了图像像素和深度信息的对应关系,虽然这些研究有助于理解MDE网络,但他们依然将网络视为黑匣子。
  许多研究旨在一种事后的方法来解释深度网络,这些方法可以分为显著性方法或归因方法,其中重要的像素在输入图像中被突出显示,以便网络在输入图像中被突出显示,虽然一些研究探讨了这种方法的可靠性,但这些方法不适用于MDE,因为MDE需要预测每个像素的深度值,使用突出显示的像素来确定所有像素的密集预测是不合理的。另一种是关于深度神经网络的可解释性的研究探索了单个神经元的属性或行为,当我们量化MDE网络的可解释性时,我们的工作应当属于这一类,MDE和图像分类任务的不同是我们区别于这些方法,此外,这些方法侧重于表示网络的可解释性而不是设计一个可解释的网络。
  一些研究设计了固有的可解释模型以缓解计算机视觉任务中模型可解释性的不足。Chen等人提出了一个可解释的对象识别模型,可以从中找到原型部分和原因,从而做出最终决定。Liao等人提出了一种方法,通过明确特征地图的匹配过程来增强人员再识别网络的可解释性。与我们的方法有相似概念的其他方法是学习更专门的过滤器。在其提出的可解释CNN中,每个过滤器代表一个特定的对象部分,而最近的一项研究通过减少过滤器类纠缠来训练可解释CNN,即每个过滤器只响应一个或几个类。在本文中,我们提出的可解释模型通过增加MDE模型内部单元的深度选择性来关注MDE任务,这与上述方法不同。

3 Interpretability of Deep Networks for MDE

  在本章中我们介绍了如何计算神经元的深度选择性以及在不同深度范围内的平均响应来量化单元的可解释性。
  对于数据集D和其对应的深度图,我们记为(Xi,di),其中i为数据集D的样本数。对于深度网络l层的第k个神经元的激活图表示为Al,k(Xi),而将其通过双线性插值放大到深度图的分辨率记为A-l,k(Xi),深度图di进行离散化形成d-i,可以通过指示函数I(d-i=d)得到二进制掩码Mdi,在整个数据集上计算网络中第l层第k个神经元的平均响应公式Rdl,k如下,其中S为平均求和,圆圈点代表逐元素乘法。
请添加图片描述
  基于平均响应,我们比较了每个单元是如何被不同深度范围激活的,并观察到一些单元对某个深度范围是有选择性的,本文将一个神经元的深度选择性表示如下,即一个神经元平均响应的最大值减去除最大值之外的平均响应的平均值再除以两者之和,记为一个神经元的深度选择性DSl,k。DS的值在[0,1]范围内,越接近1代表代表该神经元越具有深度选择性。

在这里插入图片描述

4 Interpretable Deep Networks for MDE

  我们想要在不修改网络框架和性能的情况下增强网络的可解释性,首先我们想到了正则化选择,但我们发现了其存在的问题,最后提出了单位分配深度范围。
  首先本文采用了如下的正则项来鼓励所有神经元提升深度选择性,公式如下,Kl为l层的神经元数目。(下面的公式就是一个求和公式,对所有层的神经元进行深度选择性求和,应该是作为一个损失函数,其中λ是超参数,用来平衡深度选择性和深度估计精度,一般损失函数作为约束,是在理想情况下损失函数最小,这里的深度选择性范围为[0,1],加上负号就不太懂他是怎么约束的了。)但是该方法会导致许多神经元没有相应或者崩溃(即对任何深度值都没有响应)。
在这里插入图片描述
  为了解决上述问题,我们提出了一种简单有效的方法,为每个神经元分配一个特定范围供其选择,其中dk是被分配给单元k的离散化深度。
在这里插入图片描述
  dk的计算公式如下所示,其中Kl ≤ Nb,保证每个离散化深度被分配给至少一个单元,如果计算过程中没有dk,则不计算这个神经元的深度选择性。
在这里插入图片描述

5 Experimental Results

  实验做了很多,从监督算法到自监督算法,对于不同数据集以及网络模型还有模型的每一层都做了实验,总体结果就是提升了网络的深度选择性,也提高了网络的性能,但这篇论文整体都偏向于构建可解释性的网络模型,和本人研究方向单目深度估计略有不同,所以读起来比较吃力。还有文中的一些公式描述太过隐晦,例如深度值的离散化和Nb的关系,加了符合的损失函数如何实现约束功能的,还有dk的计算方式,k再本文中一直作为神经元描述的,神经元本质上是一个参数矩阵,k作为分子的运算过程也不清晰。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值