depth in the wild学习记录

论文介绍了一种单目视觉方法,通过相邻帧一致性训练深度估计网络,同时解决遮挡问题并学习相机内参,包括焦距、偏移和畸变。关键创新包括遮挡处理、深度图直接使用和随机层归一化。研究者首次实现了运动物体的区分和相机参数估计。
摘要由CSDN通过智能技术生成

摘要:同时学习深度、自我运动、物体运动、和相机内参来自单目视贫,仅仅使用视频中相邻帧之间的一致性来监督。几个创新点:我们几何的、可微的解决遮挡,直接使用深度图,我们引入随机层归一化,我们解释物体相对于场景的运动。我们是第一个学习相机内参的方法,包括畸变。

Preliminaries:

        z′p′ = KRK^(-1)zp + Kt

        p:position z:depth R、T外参

Method:

1.一个运动估计网络,估计相机运动,每个像素相对于背景的运动,相机内参包括焦距、偏移和失真。

2.一个深度估计网络。通过施加帧之间一致性的损失,网络同时学习深度、运动场和相机内参。

3.根据估计的深度图几何地估计遮挡,而且仅把帧间一致性损失放到应用在无遮挡的像素上。

4.利用分割、目标检测网络估计运动物体。

网络:ResNet-18

损失:。。。

Occlusion-aware consistency:

遮挡的发生——深度不一致。

颜色和深度一致性需要应用在重构的图像的可见部分。

 获知遮挡物体的方法:仅当warp到的图像上像素点的深度z′R ≤ zL或者z′L ≤ zR时,将光度误差和几何误差应用到该像素。也就是只考虑源图像的深度图在前面的像素点。

正则化:训练中的一些方法。以及,运动物体的处理方式。

本文中假设R是固定的,也就是说每帧之间只存在平移。使用一个可能移动的掩码m(x, y)描述了物体运动:

t(x, y) = t0 + m(x, y)δt(x, y),

其中t0时背景运动,δt(x, y)是残余运动(基于运动物体),m(x, y)由目标检测粗糙的获得。

今晚看论文,看他具体是怎么搞的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值