论文阅读《P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo》

CV科研随想录

已于 2023-12-25 14:29:19 修改

阅读量1k

点赞数

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉机器学习

于 2022-02-26 21:59:59 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/123153052

版权

CV顶会(刊)论文阅读专栏收录该内容

59 篇文章 28 订阅

订阅专栏

论文地址：P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo

一、摘要

Cost Volumes 应该是各向异性的，但是传统的方法使用各向同性的方式来处理它（基于方差计算，每个像素都以相同的贡献度参加代价聚合计算），文章使用了一个各向同性的3D卷积和各向异性的3D卷积相结合的代价聚合方式得到更加鲁棒的代价体。

二、网络结构

在这里插入图片描述

2.1 特征提取

在这里插入图片描述
与MVSNet一样，经过卷积神经网络提取参考图像和N-1张源图像的特征 $F_{i} \in \mathbb{R}^{\frac{H}{4}\times \frac{W}{4} \times C}$ ,其中 $i\in(0, N-1)$ ，将参考视图经过Decoder得到参考视图的引导特征图 $F_{0}^{\prime} \in \mathbb{R}^{\frac{H}{2} \times \frac{W}{2} \times C}$ ,其中 ${F_{i}\}_{1}^{N-1}$ 用于后面构建Matching Confidence Volume（MCV），而 $F_{0}^{\prime}$ 用于引导生成更高分辨率的深度图。

2.2 基于patch的可学习匹配代价置信度计算

在这里插入图片描述
匹配代价体计算：将源视图的特征图经过相机的内外参数warp到参考视图，然后基于L2距离计算匹配代价体，如式1所示：
$\mathcal{M}(d, \boldsymbol{p}, c)=\exp \left(-\frac{\sum_{j=1}^{N-1}\left(F_{j}\left(\boldsymbol{p}^{\prime}, c\right)-F_{0}(\boldsymbol{p}, c)\right)^{2}}{N-1}\right)\tag{1}$
其中， $j$ 代表不同视图， $p$ 代表参考帧的像素点坐标， $c$ 代表特征的维度， $p^{\prime}$ 表示邻域帧中 $p$ 点对应的像素坐标点。
代价聚合：
$\mathcal{M}^{a}(d, \boldsymbol{p}, c)=\rho_{1}(\mathcal{M}(d, \boldsymbol{p}, c))+\rho_{2}\left(\Omega_{1}(\mathcal{M}(d, \boldsymbol{p}, c))\right)\tag{2}$
其中： $ρ_{1}$ 就是将 $p$ 点的特征值乘以一个1x1x1的卷积核（一个尺度因子）， $Ω_{1}$ 表示1x3x3的卷积+BN+RELU，表示将 $p$ 点邻域的像素聚合，但只在同一个深度层聚合，因为卷积核的第一维为1，该卷积核的参数为ρ1。
$\mathcal{M}^{\star}(d, \boldsymbol{p}, c)=\tanh \left(\rho_{3}\left(\Omega_{2}\left(\mathcal{M}^{a}(d, \boldsymbol{p}, c)\right)\right)\right) \tag{3}$
其中：逐深度进行代价聚合之后，沿着深度方向也进行聚合， $Ω_{2}$ 代表3x3x3的卷积核，在 $p$ 点的深度再考虑上下两个深度的3x3的邻域内做代价聚合。卷积核的参数为 $ρ_{3}$ ，最后乘以一个非线性因子tanh得到代价聚合后的 $\mathcal{M}^{\star}(d, \boldsymbol{p}, c)$ .

2.3 hybrid 3D U-Net

在这里插入图片描述
将 $\mathcal{M}^{\star}(d, \boldsymbol{p}, c)$ 送入到hybrid 3D U-Net得到latent probability volume（LPV）记为 $V_{2}=V_{2}(d,p)\in(Z\times \frac{H}{4}\times \frac{W}{4})$ ，表示表示 $F_{0}$ 每个像素在深度方向上的潜在概率分布。网络由多个各向异性的3D卷积核各向同性的3D卷积组成。浅层使用各向异性的卷积核融合代价体，深层使用各向同性的卷积核来融合更多的信息（各向异性的卷积指的是三个维度不相等的卷积核，各向同性的卷积核指的是三个维度相同的卷积核，感觉有点强行凑观点的嫌疑哈哈哈）。

2.4 深度图计算

先将 $V_{2}$ 经过在深度维度上做softmax得到一个概率体 $P_{2}$ ，基于期望计算深度图：
$D_{\ell_{2}}(\boldsymbol{p})=\sum_{d=D_{\min }}^{D_{\max }} d \cdot \mathcal{P}_{2}(d, \boldsymbol{p})\tag{4}$
在这里插入图片描述

$D_{\ell_{2}}$ 是分辨率较低的深度图，使用参考图像的特征图 $F_{0}^{\prime}$ 来引导生成高分辨率的深度图。首先将 $F_{0}^{\prime}$ 与上采样后的 $V_{2}$ concat成通道为 $C + Z$ 的输入，再经过一个CNN+BN+RELU和一个softmax和期望回归层，输入高分辨率的深度图 $D_{\ell_{1}}$ ；

三、损失函数

损失函数如下：
$\begin{aligned} \text { Loss }=& \frac{\alpha}{\left|\Phi_{2}\right|} \sum_{p \in \Phi_{2}}\left\|D_{\ell_{2}}(p)-D_{\ell_{2}}^{\star}(p)\right\|_{1} +\frac{1-\alpha}{\left|\Phi_{1}\right|} \sum_{\boldsymbol{p} \in \Phi_{1}}\left\|D_{\ell_{1}}(\boldsymbol{p})-D_{\ell_{1}}^{\star}(\boldsymbol{p})\right\|_{1} \end{aligned}\tag{5}$
其中， $\Phi_{2}$ 和 $\Phi_{1}$ 表示有标签的像素点， $D_{\ell_{1}}^{\star}$ 和 $D_{\ell_{2}}^{\star}$ 表示对应的Ground truth深度图； $\alpha$ 是一个可调节的权重超参数；

四、深度图滤波

4.1 基于深度估计置信度

当聚合代价体的深度方向上是单峰时的置信度是最高的。因此，使用初始深度图前的概率体求深度图 $D_{\ell_{2}}$ 的置信度图 $C_{2}(p)$ ：
$C_{2}(\boldsymbol{p})=\max \left\{\mathcal{P}_{2}(d, \boldsymbol{p}) \mid d \in\left[D_{\min }, D_{\max }\right]\right\}\tag{6}$
将 $C_{2}(\boldsymbol{p})$ 上采样后为 $U_{1}$ ，计算深度图 $D_{\ell_{1}}$ 的置信度图如式7所示：
$C_{1}(\boldsymbol{p})=U_{1}(\boldsymbol{p})+\max \left\{\mathcal{P}_{1}(d, \boldsymbol{p}) \mid d \in\left[D_{\min }, D_{\max }\right]\right\}\tag{7}$
使用深度估计置信度图来进行滤波，去除置信度低的像素点。

基于深度一致性

利用了传统方法中的左右一致性检查；
$\left|\boldsymbol{q}^{\prime}-\boldsymbol{p}\right|<\epsilon \\ \\ \frac{\left|\hat{d}\left(\boldsymbol{q}^{\prime}\right)-\hat{d}(\boldsymbol{p})\right| }{ \hat{d}(\boldsymbol{p})}<\eta\tag{8}$

五、实验结果

在这里插入图片描述

CV科研随想录

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
1
评论
论文阅读《P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo》

P-MVSNet: Learning Patch-wise Matching Confidence Aggregation for Multi-View Stereo
复制链接

扫一扫