《DeepVideoMVS:Multi-View Stereo on Video with Recurrent Spatio-Temporal Fusion》论文笔记

《DeepVideoMVS》论文提出了结合空间和时间信息的多视图立体匹配方法,通过FPN和ConvLSTM对视频深度进行连续估计。PairNet仅处理空间信息,而FusionNet通过ConvLSTM引入时间维度,提高了深度估计的稳定性。实验结果显示,该方法在资源占用和性能上优于其他深度估计技术。
摘要由CSDN通过智能技术生成

参考代码:deep-video-mvs

1. 概述

介绍:这篇文章针对视频深度估计提出一种基于multi-view的连续深度估计方法,该方法有效利用了spatial和temporal上的特征表达,构建一个可以预测具有深度一致性的视频深度估计pipeline。
1)在spatial上的表达:其通过FPN网络从输入图像帧中抽取图像特征,之后在stride=2的特征图上通过预先计算好的相机位姿、内参和深度先验bins构建multi-view上的cost-volume;
2)在temporal上的表达:其通过在网络高纬度特征上添加ConvLSTM实现对于前序视频序列信息的有效利用,此外上一帧预测深度基础上通过相机位姿、内参将ConvLSTM中的隐层特征 H H H进行warp使网络编码的几何信息更加丰富;
对于这篇文章来讲除了刚才提到的图像帧特征抽取之外,还对之前得到的cost-volume使用shortcut和U型网络结构(ConvLSTM是添加在U型网络结构的底部)实现对原始cost-volume的spatial维度上正则化操作,并在U型网络的解码器部分使用逐级深度预测的形式refine深度估计结果。

这里将文章的方法与其它的一些深度估计方法进行对比,见下图所示:
在这里插入图片描述
可以看到文章的方法在深度估计效果和资源占用上更优,其生成的视频深度效果在其训练的场景下还是很不错的,可以前往GitHub仓库查看。不过文章的方法都是在已知相机位姿和每帧对应深度(ScanNet数据集) 的情况下监督计算得来的,如何使其更加易用和泛化能力更强是一个值得细究的课题。

2. 方法设计

文章的方法是在给定一个视频序列基础上实现对深度的估计,既是实现视频预测深度值与GT深度差异最小化:
D ^ t = f θ ( I t , I t − 1 , … , I t − δ , T t , T t − 1 , … , T t − δ , K ) \hat{D}_t=f_{\theta}(I_t,I_{t-1},\dots,I_{t-\delta},T_t,T_{t-1},\dots,T_{t-\delta},K) D^t=f

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值