前言
2018年CVPR会议上,商汤科技SenseTime被收录的论文中,有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》,提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架,其表现超越了现有的一些无监督学习方法,并且取得了可以与监督学习方法相媲美的的结果。本人目前正在学习与之相关的内容,接下来将会对从网络结构解读、实验结果分析等几个方面自己研究学习的收获做一个小小的总结。
附论文地址和github地址,希望和大家多多交流~
paper:https://arxiv.org/abs/1803.02276
github:https://github.com/yzcjtr/GeoNet
整体网络结构 Network Architecture
GeoNet以无监督学习的方式感知三维场景的几何形状,整个架构分为两大部分:刚性结构重构器rigid structure reconstructor和非刚性结构定位器non-rigid motion localizer,分别来学习刚性流和目标运动,在整个过程中采用图像外观相似度来引导无监督学习。
Stage1:刚性结构推理阶段
由两个子网络DepthNet和PoseNet构成,分别用于回归出深度图(Depth Maps)和相机位姿(Camera Pose),再将二者融合到一起,得到刚性流。
Stage2:非刚性结构定位器
通过ResFlowNet实现,用于处理动态目标。ResFlowNet学习得到的非刚性流再与刚性流相结合,就推导出最终的预测流。
可以看出,三个子网络每个子网络的目标都是解决一个特定的子任务,因此复杂的场景几何理解目标就分解成立一些更简单的目标。在每个阶段都将对应阶段的视图合成(view synthesized)用作基本监督。
DepthNet & ResFlowNet
本文采用了论文《 Unsupervised monocular depth estimation with left-right consistency》中的网络结构作为DepthNet和ResFlowNet的backbone,学习像素级的几何信息。该结构主要由两部分构成:编码器encoder和解码器decoder。编码器encoder部分以ResNet50作为基本结构,解码器decoder部分由反卷器层构成,并且将特征图谱扩大到全尺度。为了同时保留全局高层次特