读论文 Unsupervised cnn for single view depth estimation Geometry to the rescue

在这里插入图片描述

它干了啥

提出了一种方法,进行 单目深度估计,以后再也不用 大量 提前标注的数据了。因为, 算是 一种 自监督吧。

采用了 autoencoder 方法,用两张图,用其中一张 ,预测 深度map, 然后用深度 和 已知的两个相机的位置,这些外部参数,就能算出来 另外一张图,算出来的这个 fake 的图,叫做 重建图。

重建图 和 真实 的源图,之间的 差异,就可以通过 重建损失 进行表示。

天天对原文的笔记

第一部分:介绍

说了之前的 训练手法:

  1. 先在 image net 上进行训练,
  2. 然后 微调,以适应其他任务。

说了说自己的工作: 目标是学会一个 非线性的预测函数:把 image 直接给映射到 depth map

场景的depth ,cnn 是如何 学习到的呢? 有几个线索: 图片的问题,场景的语义,局部和全局的信息;

有监督的 cnn 都在尝试 最小化 那些 loss,比如: 与 真实值 的 scale invariant RMS, 或者 log RMS

有监督的训练,是需要 rgb 的颜色图,以及对应的 depth map,比如 NYUv2 和 KITTI 就是这种数据集

但是有个 问题,不能泛化

在室内 室外 数据集 得到的模型,不能对换着用。你必须得 【重新训练】,才能把 室内的模型 用到 室外。

尽管有人 用 合成的数据来 进行这种 【重新训练】,但是 也是挺费的。

所以 用个新方法吧:立体图片

大量的 立体图片,可以生成 大量 的 image-plus-disparity-map。

然后我们 让网络 学着 去预测 这个 disparity map;

但是这个 任务也有几个问题,需要咱们注意:

  1. 传感器 flare, 抽了
  2. 动态的模糊,照片糊了!
  3. 光照的 改变,闪瞎眼了
  4. 阴影,阴天可咋办

这些问题,在 立体 图像 来 算 depth 的时候,你都要考虑

本文的灵感来自 autoencoder

以及 众所周知的 视觉几何学(大概就是 说 从 disparity map 和 左图 揉在一起 生成 右图 的 科学技术)

如此,我们在最后投入使用,测试的阶段,就 得到一个 牛逼的东西:完全无监督的,端到端的,卷积神经网络,仅仅用立体图像中的一张图片,进行深度估计。

第二部分:论文的方法详情

大概画个图 就这样:

在这里插入图片描述

2.1 编码器的loss

两个:

1是: 在这里插入图片描述
2是 在这里插入图片描述
最后 合并 1,2 就是了
在这里插入图片描述

再来个 图:

在这里插入图片描述

第三部分:skip 让我 从垃圾变精良

双线性采样

第四部分:网络架构图

在这里插入图片描述

第五六七部分,做实验

证明我很厉害

网络的架构

在这里插入图片描述

从这篇文章引申出来的其他文章

19: alexNet; Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep con-volutional neural networks. In: Advances in Neural Information Processing Systems (NIPS) (2012)

论文位置:

https://www.jianguoyun.com/p/DT3CBsYQvYjwBhjK7ZEE

https://arxiv.org/pdf/1603.04992.pdf

参考了:

https://zhuanlan.zhihu.com/p/85029339

模型代码

https://github.com/Ravi-Garg/Unsupervised_Depth_Estimation

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值