浅析自监督深度估计中的光度损失(Photometric Loss)

error_or_hero

已于 2023-07-21 16:58:08 修改

阅读量894

点赞数 1

文章标签：深度学习计算机视觉神经网络人工智能

于 2023-07-21 16:56:55 首次发布

本文链接：https://blog.csdn.net/qq_17027283/article/details/131841352

版权

文章目录

一、前言
二、自监督单目深度估计原理
三、光度损失
参考文献

一、前言

在自监督单目深度估计中，我们常常见到这样一个损失函数作为Final Loss的一部分存在：
在这里插入图片描述

这个loss看起来比较复杂，网上资料也比较少，那么下面我们就来探讨一下photometric loss。

二、自监督单目深度估计原理

聊photometric loss之前，我们得大致了解自监督单目深度估计的原理。几乎所有的自监督任务是利用深度预测和相机姿态估计两个模块联合进行的：

在这里插入图片描述

既然是自监督，那么就意味着输入的图像是没有深度标签的，所以我们就无法利用ground truth这个"标准答案”对输出的深度图进行优化。于是，我们利用联合训练的方法，通过输入相邻帧图像对相对位姿网络进行训练，从而经过变换得到重建帧，以重建帧与输入到深度预测网络的目标帧的差值作为训练信号，达到自监督的效果。

在这里插入图片描述

首先介绍以下前置知识：

$I_t$ :目标帧Target frame;
$\hat{I_t}$ :重构后的目标帧；
$I_s$ :源帧Source frame，若以目标帧为基准，则源帧为目标帧±1的相邻帧;
$D_t$ = $\Phi_d(I_t)$ :深度预测网络，输入 $I_t$ ，输出深度图 $D_t$ ;
${T}_{t->s}$ = $\Phi_p(I_t, I_s)$ :相对位姿估计网络，输出相对位姿矩阵 ${T}_{t->s}$ ;
$p_ {s}$ $\sim$ $KT_ {t\rightarrow s}$ $D_ {t}$ ( $p_ {t}$ ) $K^ {-1}$ $p_ {t}$ : $I_t$ 的像素 $p_t$ 与 $I_s$ 的像素 $p_s$ 的转换关系， $K$ 为相机内参。

辅助上面两张图片理解，自监督估计具体流程如下：

将目标帧 $I_t$ 输入深度预测网络 $\Phi_d$ ，得到深度图 $D_t$ ；
将目标帧 $I_t$ 和源帧 $I_s$ 同时输入相对位姿估计网络 $\Phi_p$ ，得到相对位姿矩阵 ${T}_{t->s}$ ；
利用 $p_ {s}$ $\sim$ $KT_ {t\rightarrow s}$ $D_ {t}$ ( $p_ {t}$ ) $K^ {-1}$ $p_ {t}$ 这样的转换关系，由 $p_t$ 计算出 $p_s$ ;
由于 $p_s$ 不一定为整数，故利用双线性插值算法计算该点的像素值，然后将该点采样到 $\hat{I_t}$ 图像上的对应位置，通过借助投影不断采样填充，最终实现利用 $I_s$ 的像素信息重构出来 $\hat{I_t}$ ;
利用 ${I_t}$ 和 $\hat{I_t}$ 计算光度损失。

三、光度损失

我们将 $l_1$ 和 $SS I M$ 两者组合作为光度损失来计算目标帧 $I_t$ 和重构帧 $\hat{I_t}$ 之间的差异，即：
在这里插入图片描述
此函数由两部分相加而成，前面用于计算结构相似度 $SS I M$ ，后面用于计算光度损失(photometric loss)。很多论文直接把整个函数叫光度损失(photometric loss)，严格意义上不那么准确，应该称作图像重构损失(reprojection loss)。