AACVP-MVSNet理解

朽一

已于 2022-06-14 20:32:12 修改

阅读量1.1k

点赞数

分类专栏： MVS-DL 文章标签：深度学习计算机视觉 MVSNet 深度图三维重建

于 2021-08-08 19:03:36 首次发布

本文链接：https://blog.csdn.net/qq_43027065/article/details/119518403

版权

MVS-DL 专栏收录该内容

17 篇文章 34 订阅

订阅专栏

一、网络结构
二、基于自注意力的层次特征提取
三、最粗分辨率（最低尺度）下的深度推断
四、精细尺度下的深度残差估计
五、Loss
六、结果评估（DTU）

一、网络结构

AACVP-MVSNet：基于注意力感知代价体金字塔的多视图立体网络

创新点：
1）引入自注意力层提高特征提取能力，它可以捕获深度推理任务的重要信息；
2）引入了相似性度量来聚合参考图像和所有源图像之间的代价，而不是大多数现有MVS网络使用的基于方差的方法；
3）使用从粗到精的深度推断策略，实现了整体性能的提高。

在这里插入图片描述

结构说明：
1）构建图像金字塔，根据图像尺度调整对应的输入内参矩阵，将其作为网络输入；
2）从最低尺度开始，进行特征提取（共享权重，并使用自注意力层）得到特征图，采用相似性度量的方法构建代价体（先利用假设的深度平面对所有特征图进行可微的单应性变换，构建各自的代价体，再进行聚合），再3D卷积正则化构建概率体，回归得到深度图和概率图；
3）在精细尺度上进行深度图优化，与步骤2）相似，但有两点不同：
①是利用低一尺度深度图的上采样，对当前尺度的深度平面进行假设；
②是回归得到的并不是深度图，而与低一尺度深度图的上采样的深度残差（偏差），即预测的是比之前得到的深度多了多少或少了多少。将预测的深度残差与上采样深度图逐元素相加，即得到当前尺度的深度图预测。
4）第0个尺度得到的深度图即为最终的深度图。

二、基于自注意力的层次特征提取

由八个卷积层和一个自注意力层构成

在这里插入图片描述

自注意力层

计算方式：
1.计算qij，kab,vab；
2.使用内积计算qij与kab间的相关性，并用softmax将相似性映射到（0,1）之间；
3.对步骤二得到的相似性值用vab进行加权；
4.重复1-3，将所有输出相加。

矩阵WQ沿所有通道提取xab处的信息，而矩阵WK用于xij周围的所有通道提取像素信息。因此，矩阵WQ和WK用于相似性测量。矩阵WV用作线性变换，进行从输入到输出的维度映射。

然而，上式不包含qij的位置信息，限制了视觉任务的表达能力。因此，引入位置信息嵌入过程以获得更好的结果。

三、最粗分辨率（最低尺度）下的深度推断

深度平面假设：

可微的单应性变换：

其中，大写L表示图像的级别，E表示单位矩阵。

代价体构建与聚合
1.对于每个源图像的特征图构建代价体
1）将源图像和参考图像特征图分别按通道拆分为G组；
2）对每一组，采用相似性函数分别计算参考图像特征图与源图像特征图（都经过单应性变换，变换到了深度为dm的平面）的相似度

假设源特征图的shape为（C,H,W）,分组后（G,G/C,H,W）,逐元素计算相似度后（G,H,W），计算完所有深度平面后为（M,G,H,W）。

2.代价体聚合：最终总成本量可计算为所有视图的平均相似性

深度图、概率图推理

四、精细尺度下的深度残差估计

由最低分辨率输入图像得到的深度图质量有限。因此，在更精细的层次上进行优化，进行残差映射估计。

首先，根据低一尺度的深度图，对当前尺度的深度平面进行假设

Δdp=lp/M是深度间隔，rp=mΔdp表示深度残差
这里，将参考图像中的p（u，v）和源图像中的对应点投影到对象空间，并确定深度间隔Δdp为沿极线的两个相邻像素投影的距离。
同时，不需要对深度平面进行密集采样，因为图像中这些采样的3D点的投影太近，无法为深度推断提供额外信息。

五、Loss

同MVSNet，
1）采用L1范数
2）只计算深度有效区域有效

六、结果评估（DTU）

对于DTU是数据集：
训练：
1）在最粗略的尺度上设置了假设深度平面M=48，在其他尺度上根据经验设置了M=8。
2）在4块Nvidia GeForce RTX 2080Ti上进行训练，epoch=40，batch_size=36（每个GPU的最小批量大小为9）。
3）使用Adam优化器，初始学习率设置为1×10e-3，在第10、25、32epoch乘以0.5。
后处理：
遵循MVSNet的方法，将所有深度图融合成一个完整的深度图，并生成密集点云，由三个步骤组成：用于去除异常值的光度过滤、用于深度一致性测量的几何一致性过滤、深度融合处理将来自不同视图的深度图集成到统一的点云表示中。
准确性度量：
平均准确率（简称Acc）、平均完整性（简称Comp）和整体准确率（简称OA），其定义如下：

使用DTU数据集提供的官方MATLAB脚本计算准确度和完整性。

朽一

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
AACVP-MVSNet理解

一、网络结构二、基于自注意力的层次特征提取三、最粗分辨率（最低尺度）下的深度推断四、精细尺度下的深度残差估计五、Loss六、结果评估（DTU）一、网络结构AACVP-MVSNet：基于注意力感知代价体金字塔的多视图立体网络创新点：1）引入自注意力层提高特征提取能力，它可以捕获深度推理任务的重要信息；2）引入了相似性度量来聚合参考图像和所有源图像之间的代价，而不是大多数现有MVS网络使用的基于方差的方法；3）使用从粗到精的深度推断策略，实现了整体性能的提高。结构说明：1）构建图像.
复制链接

扫一扫