论文阅读《JDACS: Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation》

CV科研随想录

已于 2023-12-25 14:51:31 修改

阅读量3.1k

点赞数 1

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉机器学习

于 2021-12-13 14:26:24 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/121880868

版权

CV顶会(刊)论文阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

论文地址：Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation

问题的提出

由于光照等因素的影响，不同视图下同名点的颜色不一致，这是自监督学习与有监督学习的表现性能差异很大的关键原因。为此，该文提出了协同分割分支和数据增强分支来解决这个问题。
在这里插入图片描述

网络整体架构

在这里插入图片描述

网络结构——深度估计分支（Depth Estimation Branch）

在这里插入图片描述
使用CVP_MVSNet作为Backbone：

1张参考视图，N-1张源视图作为输入，经过共享CVP_MVSNET得到每层金字塔的深度图[ $\frac{H}{2^{sacle-1}}$ , $\frac{W}{2^{sacle-1}}$ ]…[H/2, W/2]和 [H, W]，sacle表示金字塔的层数。

网络结构——协同分割分支（Co-Segmentation Branch）

在这里插入图片描述

N张图片作为输入，经过ImageNet预训练好的Vgg模型得到[N, C, h, w]的特征图。(此处h和w是特征图大小而非原图大小)。
将N个特征图的维度转换为[Nhw， C]，经过非负矩阵分解得到P矩阵:[Nhw, K]和Q矩阵:[K, C]，将P矩阵维度转换为[N, h, w, K]，其中K为预设的类别个数，目的是将特征图内的像素聚类为K个类别。

网络结构——数据增强分支（Data Augmentation Branch）

在这里插入图片描述
将N张图片随机mask掉一定区域，经过深度估计分支的共享CVP_MVSNET得到每层金字塔的深度图[ $\frac{H}{2^{sacle-1}}$ , $\frac{W}{2^{sacle-1}}$ ]…[H/2, W/2]和 [H, W]，sacle表示金字塔的层数。

损失函数

$\begin{array}{r} L=\lambda_{1} L_{P C}+\lambda_{2} L_{S C}+\lambda_{3} L_{D A}+\lambda_{4} L_{S S I M}+\lambda_{5} L_{S m o o t h} \end{array}\tag{0}$

光度一致性损失

$L_{P C}=\sum_{i=2}^{N} \frac{\left\|\left(I_{i}^{\prime}-I_{1}\right) \odot M_{i}\right\|_{2}+\left\|\left(\nabla I_{i}^{\prime}-\nabla I_{1}\right) \odot M_{i}\right\|_{2}}{\left\|M_{i}\right\|_{1}}\tag{1}$
其中， $I_{i}^{\prime}$ 为第 $i$ 张源视图基于预测的深度图和相机参数投影到参考视角的图片， $I_{1}$ 为参考视图， $M_{i}$ 为投影视图和参考视图的共同可视区域mask，在颜色空间和梯度空间计算两者的 $L_{1}$ 损失。

结构一致性损失

$L_{\mathrm{SSIM}}=\sum_{i j}\left[1-\operatorname{SSIM}\left(\hat{X}_{t}^{i j}, X_{t}^{i j}\right)\right] M_{t}^{i j}\tag{2}$
其中，对投影过来的视图和参考视图求结构一致性损失（基于3x3窗口求对应窗口的结构一致性损失，取平均）
$\operatorname{SSIM}(x, y)=\frac{\left(2 \mu_{x} \mu_{y}+c_{1}\right)\left(2 \sigma_{x y}+c_{2}\right)}{\left(\mu_{x}^{2}+\mu_{y}^{2}+c_{1}\right)\left(\sigma_{x}+\sigma_{y}+c_{2}\right)}\tag{3}$
其中， $\mu_{x}$ 为x图像的均值， $\mu_{y}$ 为y图像的均值， $\sigma_{x y}$ 为两图像的协方差。

平滑损失

表示深度图变化比较大的区域原图变化也比较大。
$L_{\mathrm{Smooth}}=\sum_{i, j}\left\|\partial_{x} D^{i j}\right\| e^{-\left\|\partial_{x} X^{i j}\right\|}+\left\|\partial_{y} D^{i j}\right\| e^{-\left\|\partial_{y} X^{i j}\right\|}\tag{4}$

协同分割损失

对于每一层的深度预估图 [ $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ ]，将协同分割图 [N, h, w, K] 采样到[ $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ ]尺寸得:[N, $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ , K]
将 N-1个邻域视图 [N-1, $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ , K] ，使用该层预测的深度图与对应视角的相机参数投影到参考视图得到：N-1个[ $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ , K]，转换维度为N-1个 [ $\frac{H}{2^{n}}*\frac{W}{2^{n}}$ , K]
将该层的参考视图协同分割图 [ $\frac{H}{2^{n}}$ , $\frac{W}{2^{n}}$ , K] 经过soft-max函数，再转换成Onehot编码格式：[ $\frac{H}{2^{n}}* \frac{W}{2^{n}}$ , 1]。
分别求N-1个源视图协同分割投影图 [ $\frac{H}{2^{n}}*\frac{W}{2^{n}}$ , K] 与参考视图协同分割图 [ $\frac{H}{2^{n}}* \frac{W}{2^{n}}$ , 1] 的交叉熵损失。
$L_{S C}=-\sum_{i=2}^{N}\left[\frac{1}{\left\|M_{i}\right\|_{1}} \sum_{j=1}^{H W} f\left(S_{1, j}\right) \log \left(S_{i, j}^{\prime}\right) M_{i, j}\right]\tag{5}$

数据增强损失

逐层计算未被mask区域的 $L_{1}$ 损失
$L_{D A}=\frac{1}{\left\|M_{\tau_{\theta}}\right\|_{1}} \sum\left\|\left(D-\bar{D}_{\tau_{\theta}}\right) \odot M_{\tau_{\theta}}\right\|_{2}\tag{6}$