无监督深度估计论文阅读

Unsupervised Monocular Depth Estimation with Left-Right Consistency

  这篇文章可以看做时无监督深度估计的里程碑之作,主要思想是针对于一个双目摄像头左图与右图相互递归,实现网络的训练过程,由于视差图与深度图互为倒数,所以可以通过得到视差图的方法来得到深度图。
以下这一段是一个博主的解释原文链接
  这种方法的大体思路是这样的,首先我假设有一个双目摄像头,我将双目摄像头的左图作为整个网络的输入,经过一个卷积神经网络我的输出是两张分别对应双目摄像头左图和右图的视差图(卷积网络得到视差图的过程),我再将真正的右图加进来,通过我预测得到的视差图与拿过来的右图进行处理,我就生成了左图。将我生成的左图与真实的左图作对比,我就得到了loss损失函数,进一步反向传播训练网络。也就是说,这个网络达到最佳效果时,我们输入一张左图,通过卷积神经网络能够得到一张很好的视差图,再将视差图与真实的右图一起进行处理,完美的还原出我们的左图。但我们的任务是通过左图获得一张深度图,其实在我们的网络中,我们只需要将后面的视差图与右图一起生成左图的过程取消掉,就能够生成深度图了。那么我们为什么要加入后面的部分进行训练呢?如果我们没有后面的生成左图的过程,那么我们就只能以深度图作为label来进行训练,深度图的获得非常麻烦,而通过加入后面的环节,我们的label就变成了左图或者右图,这样我们就很好的避开了深度图作为label的问题。
在这里插入图片描述
在这里插入图片描述
  上述的三种方法可以很好看到一个科研的发展思路,不断的在前人的基础上添砖加瓦,直到最后开天辟地。
  第一幅图,由左图通过卷积网络生成基于右图的视差图,然后通过基于右图的视差图和左图恢复出右图,再将恢复出来的右图与真实的右图进行对比,建立损失函数,通过反向传播网络回馈CNN。
  第二幅图,由左图通过卷积网络生成基于左图的视差图,然后通过基于左图的视差图和右图恢复出左图,再将恢复出来的左图与真实的左图进行对比,建立损失函数,通过反向传播网络回馈CNN。(呃~~这个怎么说呢?这篇论文我还没读过,应该还有其他的改进点,否则就只是这样换一下未免太过敷衍了,有机会去看一下)
  第三幅图,由左图通过卷积网络生成基于右图和基于左图的视差图,注意,这里讲两个视差图是叠在一起的,而他下面又讲左右一致性,不过想一想也可以想明白,基于左图的视差图和基于右图的视差图不都是左图和右图之间通过一个类减法操作得到的吗,所以我怀疑这里得到什么基于左图的视差图,或者基于右图的视差图,应该都是同一幅视差图,得到视差图后将基于右图的视差图与左图恢复出右图,另一边得到恢复的左图,然后将恢复的右图和右图对比,将恢复的左图与左图对比,建立损失函数,通过反向传播网络回馈CNN。
  上午看到这里时产生了一个点子,因为最近在复现struct2depth,接触的是单目视频,而且自己大概率也是做这个方向。当时想到上述论文其实就是双目摄像头从一到二的过程(指的是由最开始的由左图输入产生右图视差图到后面产生基于右图的视差图和基于左图的视差图),那对于单目来说是不是可以使用前后帧来代替monodepth的左右帧,刚有这个想法后,去看struct2depth才发现struct2depth就是这样做的((⊙﹏⊙)所以说我要是早几年看到这个,或许就能有篇不错的论文了,这个时效性还是太重要了)。虽然如此,倒是还有一些其他的点子,例如双目做到了2,那能不能将2扩展到4,在双目里也加入前后帧进行对比监督,会不会有更好的效果,再比如,单目的struct2depth是对于前后各一帧,能不能实现前后各两帧,各三帧,或者针对于不同的场景需要,我们在同一个视频序列上,建立一个滑动的窗口来动态的调整传输,我画一个简单的图来记录此时的idea。

2021/3/15 11.09

  这几天看下来,感觉从一到二,或者从二到四不是一个特别好的点,并且转化过程也不是那么随意,例如在加入更多的帧,理论上会引入不必要的噪声,从动机上讲是毫无道理的。
  而大杂烩和铁锅炖似乎会更好一点,例如光流算法处理动态视频,下述第三篇论文也是处理动态物体,还有自动掩膜处理动态物体等或许这几种方法组合一下取长补短会好一点。

struct2depth

struct2depth改进版

  struct2depth其实做的就是-1帧0帧和1帧之间的事,现在我将-2帧和2帧加入其中,将恢复出来的伪-1帧,伪0帧,伪1帧再次运算计算出伪伪0帧,虽然计算量相比原来提升了4倍,但我们加入-2帧和2帧引入了更多的参数,从视频连续性的角度来看,-2帧和2帧对于0帧的恢复是存在一定的引导性的,即有一定的正面效益(当然,实验还没做出来,也不好说什么)。
假如,上述方法行得通的话,可以再试一试滑动窗口的事。

Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos

  真是无fuck可说,struct2depth的论文里我都没看到他有讲前两帧后两帧的事,结果代码里出现了。

if sequence_length = 3
tgt image is the i th image, ref is i-1 th and i+1 th image. 
ref = [i-1, i+1]

if sequence_length = 5
tgt = i, ref = [i-2, i-1, i+1, i+2]

  真是无话可说,不知道他的实现过程是否和我上面的相似了,哎西吧。。。。

Unsupervised Monocular Depth Learning in Dynamic Scenes

  无监督单目深度估计处理动态物体,主要思想采用深度估计和位姿网络预测深度图,将生成的深度图与原来的图像合成RGBD图像(在深度估计领域,有监督即采用传感器得到的往往就是RGBD图像,但使用传感器不能逐像素得到深度),将得到的深度图送入网络进行训练。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值