GeoNet学习笔记

最新推荐文章于 2023-09-07 23:24:25 发布

CVerLJN

最新推荐文章于 2023-09-07 23:24:25 发布

阅读量2.6k

点赞数 7

文章标签：深度估计 depth estimate GeoNet

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tryagian/article/details/82048111

版权

GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose-CVPR2018

这篇论文提出了一种联合学习深度、光流和相机姿态的无监督学习框架GeoNet。

之前的论文单独讨论深度、光流、相机姿态，没有讨论这些任务之间的相关性。

GeoNet是基于3D场景几何的本质特征，直观的解释就是——3D场景都是由静态背景（道路、房屋、树木等）和动态目标（行人、车辆等）构成的，静态背景在视频帧之间的2D投影图像完全由深度结构和相机运动决定，可以用光流模拟相机运动。动态目标的运动由相机运动和自身的运动共同决定。

GeoNet的主要贡献是：

采用了一种“分而治之”的策略，分别学习刚体流和物体运动。在每个阶段用合成视图和原图的相似度误差来引导与监督学习；
引入自适应几何一致性损失，通过前向-反向一致性检查，自动过滤遮挡和可能的异常值。

GeoNet指出Monodepth对所有像素一视同仁，这会影响在遮挡区域的几何一致性损失。GeoNet提出的自适应几何一致性损失能够弥补这一问题。

而另一篇估计深度和相机姿势的论文SfMLearner再考虑物体运动时使用了一个可解释的掩膜作为补偿。

通过理解3D场景的本质，将理解3D场景这一问题分解为两个子问题，即刚体流（rigid flow）和物体运动（object motion）。

为了给严格受限制的刚体流建模，定义帧的深度图为 D_i ，目标帧（t）到源帧（s）的相机运动为 $T_{t\rightarrow s}$ ，由此来定义静态场景几何体。相对的从目标图像 $I_{t}$ 到源图像 $I_{s}$ 的2D刚体流表示为

表示相机内在矩阵（camera intrinsic）， p_t 表示 I_t 中像素的齐次坐标。

GeoNet的整体网络架构如下图所示：

在DepthNet中，训练数据是时间上连续的帧 $I_i(i=1\sim n)$ ，整个序列作为一个mini-batch输入DepthNet。

与之形成对比的是，PoseNet将整个序列在channel通道上串联作为输入，输出6DoF的相机姿态 $T_{t\rightarrow s}$ 。

DepthNet采用了编码器encoder+解码器decoder的结构，编码器部分以ResNet50作为基本结构，解码器部分由反卷积层构成，并且在encoder和decoder之间的相同分辨率上采用了skip connections，进行了多尺度下的预测。这样能够同时保留全局高层次特征和局部细节信息。训练数据是一组时间上连续的视频帧（已知相机内参），其中 I_t 是目标帧，作为参考帧，其他帧都是源帧 I_s 。DepthNet回归得到不同分辨率下的深度图 D(t) （原图大小，1/2,1/4,1/8）。

I_t 和

最低0.47元/天解锁文章

关注

7
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
GeoNet学习笔记

GeoNet: Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose-CVPR2018这篇论文提出了一种联合学习深度、光流和相机姿态的无监督学习框架GeoNet。之前的论文单独讨论深度、光流、相机姿态，没有讨论这些任务之间的相关性。GeoNet是基于3D场景几何的本质特征，直观的解释就是——3D场景都是由静...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。