论文阅读笔记——GeoNet之网络结构解读(附源码注释)

前言

    2018年CVPR会议上,商汤科技SenseTime被收录的论文中,有一篇《GeoNet--Unsupervised Learning of Dense Depth, Optical Flow and Camera Pose》,提出了一个叫做GeoNet的框架——一种可以联合学习单目深度、光流和相机姿态的无监督学习框架,其表现超越了现有的一些无监督学习方法,并且取得了可以与监督学习方法相媲美的的结果。本人目前正在学习与之相关的内容,接下来将会对从网络结构解读、实验结果分析等几个方面自己研究学习的收获做一个小小的总结。

附论文地址和github地址,希望和大家多多交流~

paper:https://arxiv.org/abs/1803.02276

github:https://github.com/yzcjtr/GeoNet

整体网络结构 Network Architecture

    GeoNet以无监督学习的方式感知三维场景的几何形状,整个架构分为两大部分:刚性结构重构器rigid structure reconstructor和非刚性结构定位器non-rigid motion localizer,分别来学习刚性流和目标运动,在整个过程中采用图像外观相似度来引导无监督学习。

Stage1:刚性结构推理阶段

    由两个子网络DepthNet和PoseNet构成,分别用于回归出深度图(Depth Maps)和相机位姿(Camera Pose),再将二者融合到一起,得到刚性流。

Stage2:非刚性结构定位器

    通过ResFlowNet实现,用于处理动态目标。ResFlowNet学习得到的非刚性流再与刚性流相结合,就推导出最终的预测流。


可以看出,三个子网络每个子网络的目标都是解决一个特定的子任务,因此复杂的场景几何理解目标就分解成立一些更简单的目标。在每个阶段都将对应阶段的视图合成(view synthesized)用作基本监督。

DepthNet & ResFlowNet

    本文采用了论文《 Unsupervised monocular depth estimation with left-right consistency》中的网络结构作为DepthNet和ResFlowNet的backbone,学习像素级的几何信息。该结构主要由两部分构成:编码器encoder和解码器decoder。编码器encoder部分以ResNet50作为基本结构,解码器decoder部分由反卷器层构成,并且将特征图谱扩大到全尺度。为了同时保留全局高层次特

  • 5
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值