论文阅读笔记——GeoNet之网络结构解读（附源码注释）

最新推荐文章于 2024-06-23 09:33:25 发布

LCJhust2012

最新推荐文章于 2024-06-23 09:33:25 发布

阅读量6.9k

点赞数 5

分类专栏：深度学习自动驾驶文章标签： GeoNet 场景理解自动驾驶深度估计光流

本文链接：https://blog.csdn.net/lcjhust2012/article/details/80497006

版权

前言

2018年CVPR会议上，商汤科技SenseTime被收录的论文中，有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》，提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架，其表现超越了现有的一些无监督学习方法，并且取得了可以与监督学习方法相媲美的的结果。本人目前正在学习与之相关的内容，接下来将会对从网络结构解读、实验结果分析等几个方面自己研究学习的收获做一个小小的总结。

附论文地址和github地址，希望和大家多多交流~

paper：https://arxiv.org/abs/1803.02276

github：https://github.com/yzcjtr/GeoNet

整体网络结构 Network Architecture

GeoNet以无监督学习的方式感知三维场景的几何形状，整个架构分为两大部分：刚性结构重构器rigid structure reconstructor和非刚性结构定位器non-rigid motion localizer，分别来学习刚性流和目标运动，在整个过程中采用图像外观相似度来引导无监督学习。

Stage1：刚性结构推理阶段

由两个子网络DepthNet和PoseNet构成，分别用于回归出深度图（Depth Maps）和相机位姿（Camera Pose），再将二者融合到一起，得到刚性流。

Stage2：非刚性结构定位器

通过ResFlowNet实现，用于处理动态目标。ResFlowNet学习得到的非刚性流再与刚性流相结合，就推导出最终的预测流。

可以看出，三个子网络每个子网络的目标都是解决一个特定的子任务，因此复杂的场景几何理解目标就分解成立一些更简单的目标。在每个阶段都将对应阶段的视图合成（view synthesized）用作基本监督。

DepthNet & ResFlowNet

本文采用了论文《 Unsupervised monocular depth estimation with left-right consistency》中的网络结构作为DepthNet和ResFlowNet的backbone，学习像素级的几何信息。该结构主要由两部分构成：编码器encoder和解码器decoder。编码器encoder部分以ResNet50作为基本结构，解码器decoder部分由反卷器层构成，并且将特征图谱扩大到全尺度。为了同时保留全局高层次特

最低0.47元/天解锁文章

LCJhust2012

关注

5
点赞
踩
28

收藏

觉得还不错? 一键收藏
5
评论
论文阅读笔记——GeoNet之网络结构解读（附源码注释）

前言 2018年CVPR会议上，商汤科技SenseTime被收录的论文中，有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》，提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架，其表现超越了现有的一些无监督学习方法，并且取得了可以与监督学习方法...
复制链接

扫一扫