论文阅读笔记——GeoNet之网络结构解读（附源码注释）

最新推荐文章于 2025-03-17 19:12:50 发布

原创

最新推荐文章于 2025-03-17 19:12:50 发布

· 7.1k 阅读

28 ·

版权

文章标签：

#GeoNet #场景理解 #自动驾驶 #深度估计 #光流

本文详细解读了GeoNet网络结构，这是一种用于无监督学习单目深度、光流和相机姿态的框架。GeoNet分为刚性结构重构器和非刚性结构定位器两部分，利用图像外观相似度进行无监督学习。Stage1的DepthNet和PoseNet分别预测深度图和相机位姿；Stage2的ResFlowNet处理动态目标。网络结构借鉴了ResNet50和相关深度估计论文，利用skip connections保留全局和局部信息，PoseNet类似Unsupervised learning of depth and ego-motion from video的网络结构。论文和源码链接已提供，供读者深入研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前言

2018年CVPR会议上，商汤科技SenseTime被收录的论文中，有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》，提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架，其表现超越了现有的一些无监督学习方法，并且取得了可以与监督学习方法相媲美的的结果。本人目前正在学习与之相关的内容，接下来将会对从网络结构解读、实验结果分析等几个方面自己研究学习的收获做一个小小的总结。

附论文地址和github地址，希望和大家多多交流~

paper：https://arxiv.org/abs/1803.02276

github：https://github.com/yzcjtr/GeoNet

整体网络结构 Network Architecture

GeoNet以无监督学习的方式感知三维场景的几何形状，整个架构分为两大部分：刚性结构重构器rigid structure reconstructor和非刚性结构定位器non-rigid motion localizer，分别来学习刚性流和目标运动，在整个过程中采用图像外观相似度来引导无监督学习。

Stage1：刚性结构推理阶段

由两个子网络DepthNet和PoseNet构成，分别用于回归出深度图（Depth Maps）和相机位姿（Camera Pose），再将二者融合到一起，得到刚性流。

Stage2：非刚性结构定位器

通过ResFlowNet实现，用于处理动态目标。ResFlowNet学习得到的非刚性流再与刚性流相结合，就推导出最终的预测流。

可以看出，三个子网络每个子网络的目标都是解决一个特定的子任务，因此复杂的场景几何理解目标就分解成立一些更简单的目标。在每个阶段都将对应阶段的视图合成（view synthesized）用作基本监督。

DepthNet & ResFlowNet

本文采用了论文《 Unsupervised monocular depth estimation with left-right consistency》中的网络结构作为DepthNet和ResFlowNet的backbone，学习像素级的几何信息。该结构主要由两部分构成：编码器encoder和解码器decoder。编码器encoder部分以ResNet50作为基本结构，解码器decoder部分由反卷器层构成，并且将特征图谱扩大到全尺度。为了同时保留全局高层次特

最低0.47元/天解锁文章