《DeepVideoMVS：Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion》论文笔记_deepvideomvs: multi-view stereo on video with recu-CSDN博客

本文链接：https://blog.csdn.net/m_buddy/article/details/123220119

《DeepVideoMVS》论文提出了结合空间和时间信息的多视图立体匹配方法，通过FPN和ConvLSTM对视频深度进行连续估计。PairNet仅处理空间信息，而FusionNet通过ConvLSTM引入时间维度，提高了深度估计的稳定性。实验结果显示，该方法在资源占用和性能上优于其他深度估计技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考代码：deep-video-mvs

1. 概述

介绍：这篇文章针对视频深度估计提出一种基于multi-view的连续深度估计方法，该方法有效利用了spatial和temporal上的特征表达，构建一个可以预测具有深度一致性的视频深度估计pipeline。
1）在spatial上的表达：其通过FPN网络从输入图像帧中抽取图像特征，之后在stride=2的特征图上通过预先计算好的相机位姿、内参和深度先验bins构建multi-view上的cost-volume；
2）在temporal上的表达：其通过在网络高纬度特征上添加ConvLSTM实现对于前序视频序列信息的有效利用，此外上一帧预测深度基础上通过相机位姿、内参将ConvLSTM中的隐层特征 $H$ 进行warp使网络编码的几何信息更加丰富；
对于这篇文章来讲除了刚才提到的图像帧特征抽取之外，还对之前得到的cost-volume使用shortcut和U型网络结构（ConvLSTM是添加在U型网络结构的底部）实现对原始cost-volume的spatial维度上正则化操作，并在U型网络的解码器部分使用逐级深度预测的形式refine深度估计结果。

这里将文章的方法与其它的一些深度估计方法进行对比，见下图所示：
在这里插入图片描述
可以看到文章的方法在深度估计效果和资源占用上更优，其生成的视频深度效果在其训练的场景下还是很不错的，可以前往GitHub仓库查看。不过文章的方法都是在已知相机位姿和每帧对应深度（ScanNet数据集） 的情况下监督计算得来的，如何使其更加易用和泛化能力更强是一个值得细究的课题。