CVPR2021论文阅读
摘要
现有的色彩引导深度超分辨率(DSR)方法需要成对的RGB-D数据作为训练样本,由于它们之间的几何相似性,RGB图像被用作结构引导以恢复退化的深度图。我们首次探索在训练阶段学习跨模态知识,其中RGB和深度模态都可用,但仅使用单个深度模态在目标数据集上进行测试。我们的关键思想是在不改变其网络结构的情况下,将场景结构引导的知识从RGB模态提取到单个DSR任务。
具体地,构建了一个辅助深度估计(auxiliary depth estimation ,DE)任务,以RGB图像作为输入来估计深度图,协同训练DSR任务和DE任务以提高DSR的性能。在此基础上,提出了一个跨任务交互模块(cross-task interaction module )来实现双边跨任务知识转移。首先,我们设计了一个跨任务蒸馏方案(cross-task distillation scheme),鼓励DSR和DE网络以师生角色交换的方式相互学习。然后,我们提出了一个结构预测(tructure prediction (SP) task)任务,该任务提供额外的结构正则化,以帮助DSR和DE网络学习更多信息结构表示,用于深度恢复。
Introduction
我们构造了一个辅助深度估计(auxiliary depth estimation ,DE)任务,以RGB图像作为输入来估计深度图。在此基础上,我们提出了一个跨任务交互模块(cross-task interaction module )来实现DSR任务和DE任务之间的双边知识转移。与常用的蒸馏技术不同,我们首先设计了一种跨任务蒸馏(cross-task distillation),鼓励DSRNet和DENet相互学习,即教师和学生的角色将根据他们在迭代协作训练中深度恢复的当前表现在两个任务之间动态切换。引入多空间蒸馏方案(multi-space distillation scheme),从输出空间(output space)和仿射空间(affinity space)的角度提取知识,可以更好地描述深度图的基本结构特征。此外,为了解决RGB-D结构不一致的问题,我们构造了一个结构预测任务(structure prediction ,SP),该任务提供额外的结构正则化,以帮助DSRNet和DENet学习更多信息结构表示,用于深度恢复。我们提出了一个不确定性引导注意力融合模块(uncertainty-induced attention fusion module),为SP网络(SPNet)提供合理的输入,其中从DSRNet和DENet获取的不确定性映射用于重新加权其特征,以增强有效的结构知识。
贡献:
Method
主要结构:
cross-task interaction module:cross-task distillation、structure prediction
1.cross-task distillation( multi-space distillation scheme ): output space、 affinity space
2.structure prediction: uncertainty-induced attention fusion module
Structure Prediction
通过groundtruth structure map的监督,SPNet可以提供额外的结构正则化,帮助DSRNet和DENet学习更多信息结构表示,以缓解RGB-D结构不一致的问题。
通常,DSR和DE任务的错误恢复发生在深度图中深度边界和精细结构周围的区域,这些区域具有更高的恢复不确定性。因此,我们设计了一个不确定性引导的注意融合模块(uncertainty-induced attention fusion module),通过将恢复不确定性纳入特征图来增强这些信息结构特征,而不是简单地将Fsr和Fde连接起来并发送到结构CNN中。因此,我们首先通过激活恢复误差来计算两个网络的不确定性映射(uncertainty maps)Usr和Ude:
loss:
1.DSRNet、DENet中对最终输出结果用HR深度图GT进行监督,正常的L1 loss进行重建
LDSR为L1 loss,LDE为L1 loss和SSIM loss
2.多空间蒸馏损失:输出空间(Output Space Distillation)和仿射空间(Affinity Space Distillation)
(1)Output Space Distillation:
Dsr、Dde: 在DSRNet和DENet的中间特征F上使用side-output layer(两层连续卷积)生成的多尺度输出Dsr、Dde。
(2)Affinity Space Distillation:
特征F维度w*h*c,经过R,R(F)维度为wh*c.
多空间蒸馏总损失:
3.SPNet损失:
G表示SPNet
4.总损失:(如果选择DSRNet作为学生,则DENet的参数在当前epoch固定,DSRNet使用以下损失更新)
训练过程
分两步:
1.使用ground truth分别更新DSRNet和DENet,损失为公式(10)和(11);
2.随机初始化SPNet,将其与DSRNet和DENet一起训练