每天一篇论文 334/365 Don’t Forget The Past: Recurrent Depth Estimation from Monocular Video

Don’t Forget The Past: Recurrent Depth Estimation from Monocular Video
Code
每天一篇论文汇总list
作者唠了半天就是给encode前加了ConvLSM,让特征在时间上能有联系,说是提高了Depth估计准确度,起的名字能逗死你,别忘记曾经:单目视频序列循环深度估计
摘要

自动驾驶汽车需要不断更新的深度信息,目前为止,即使该方法是从视频输入开始的,也大多是针对单个帧一次进行独立的深度估计。我们的方法产生了深度图的时间序列,这使得它成为在线学习方法的理想候选。特别是,我们将三种不同类型的深度估计(有监督的深度预测、自监督的深度预测和自监督的深度完成)放入一个通用框架中。我们将相应的网络与卷积的LSTM相结合,这样就可以利用帧间深度的时空结构来获得更精确的深度估计。我们的方法很灵活。它可以只应用于单目视频,也可以与不同类型的稀疏深度模式相结合。我们仔细研究了递归网络的结构和训练策略。我们首次成功地利用递归网络进行实时自监督单目深度估计和完成。大量的实验表明,在两种自监督场景下,我们的递归方法都比基于图像的方法有着一致且显著的优势。它也优于三种常用的深度估计方法。

贡献

这项工作作出了三项贡献:
1) 一种利用时空信息进行深度估计的新型递归网络,
2) 有效地训练基于convlsm的网络以用于具有视频输入的密集预测任务的创新;以及
3) 实验表明,在所考虑的所有场景中,我们的递归方法都优于基于图像的方法和当前的SOTA方法

方法

通常深度估计得三种方法
基于RGB图像的有监督深度预测
单目视频自监督深度预测
通过传感器的稀疏深度:基于单目视频和稀疏深度图的自监督深度补全

这三种方法已经得到了广泛的研究关注,但是到目前为止,深度都是在一次一帧的情况下“独立”估计的。这两种自监督方法只利用相邻帧来计算训练时的视点合成损失。大量丰富的、长期的时间结构相关性没有得到开发。本节提出了一个框架来扩展这三组方法,使它们既可以对数据的时间序列进行训练,也可以对数据进行测试。我们将深度恢复问题描述为从多模式数据的时空序列(即图像和稀疏深度图)到数据的时空序列(即密集深度图)的转换问题。
在这里插入图片描述

ConvLSM

为了对时空相关性进行建模,我们采用convlsm网络并在其基础上添加上一节介绍的主干网络,用于基于图像的深度预测。convlsm根据其本地邻居的输入和过去的状态来确定网格中某个单元的未来状态。这可以通过在状态到状态和输入到状态转换中使用卷积算子来轻松实现。如 Convolutional lstm network: A machine learning approach for precipitation nowcasting所述,如果将隐藏状态视为视觉结构(对象)的隐藏表示,那么convlsm能够通过其过渡核捕捉这些视觉组件的运动。同样,对于从单目视频中学习深度图的任务,我们尝试利用时间信息来提高性能。应捕捉和利用场景几何结构与沿运动轨迹感知的视觉刺激之间的相关性。另一种利用时间信息的成熟方法是在输入端连接多个帧。然而,这些方法不能扩展到更长的序列(>20帧)并且需要昂贵的3D卷积。我们认为长序列与在线学习方法相结合可能有助于从视频中估计深度。
在这里插入图片描述
我们的编码器-解码器网络,在等式1和等式9中定义,在不同的级别上生成特征表示。编码器X的输出被选择为我们的convlsm的输入。由于X的紧性和它的高信息密度,使得对convlsm的优化更加有效。更具体地说,在t帧的学习过程开始于与编码器的空间卷积以得到Xt,接着是与convlsm的时间卷积。

结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值