论文笔记-DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Task Consistency

论文信息

  • 论文标题:DF-Net: Unsupervised Joint Learning of Depth and Flow using Cross-Task Consistency

  • 论文作者:Yuliang Zou, Zelun Luo, Jia-Bin Huang

  • 研究机构:Virginia Tech; Stanford University

  • 论文出处:ECCV 2018

  • 引用信息:

    @inproceedings{DBLP:conf/eccv/ZouLH18,
      author    = {Yuliang Zou and
                   Zelun Luo and
                   Jia{-}Bin Huang},
      editor    = {Vittorio Ferrari and
                   Martial Hebert and
                   Cristian Sminchisescu and
                   Yair Weiss},
      title     = {DF-Net: Unsupervised Joint Learning of Depth and Flow Using Cross-Task
                   Consistency},
      booktitle = {Computer Vision - {ECCV} 2018 - 15th European Conference, Munich,
                   Germany, September 8-14, 2018, Proceedings, Part {V}},
      series    = {Lecture Notes in Computer Science},
      volume    = {11209},
      pages     = {38--55},
      publisher = {Springer},
      year      = {2018},
      url       = {https://doi.org/10.1007/978-3-030-01228-1\_3},
      doi       = {10.1007/978-3-030-01228-1\_3},
      timestamp = {Tue, 14 May 2019 10:00:45 +0200},
      biburl    = {https://dblp.org/rec/conf/eccv/ZouLH18.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    
  • 代码链接:http://yuliang.vision/DF-Net/

论文主要贡献和参考价值

  • 主要贡献
    • 提出无监督学习框架同时进行单目深度估计和光流估计网络的训练(主要通过引入跨任务一致性损失函数实现)
  • 参考价值
    • 相关任务联合训练
    • 无监督深度估计方法

论文要点翻译

  • 摘要
    • 本文提出用于同时训练单目深度估计和光流估计的无监督学习框架,只是用无标注的视频帧序列作为输入信息
    • 现有的无监督方法通常使用颜色的一致性和空间的平滑性先验作为深度或者光流的训练信号,本文则利用几何一致性作为额外的监督信号
    • 本文的可信思想在于对于刚性区域可以使用预测的场景深度和相机姿态来合成二维的光流,合成的刚性区域的光流和预测的光流之间的不一致则使得本文可以引入跨任务的一致性损失
    • 本文提出的所有网络在训练时联合训练,测试的时候可以单独应用,实验结果表明,本文提出的深度和光流模型达到现有的无监督方法的 SOTA 性能
  • 引言
    • 单目深度估计和光流估计是计算机视觉中的两个基础任务,两个任务都致力于从场景图像中灰度高度相关的信息,现有工作主要将两个问题分来研究,本文说明了任务之间的几何一致性对无监督学习深度和光流预测模型的好处
    • 随着 DCNN 的快速发展,许多方法通过端到端的方式进行密集预测任务的处理,但是监督学习方法需要建立大规模的多样的数据集,且数据需要有密集的像素级标注数据,收集这样的密集标注数据并不容易,且人工标注数据容易出现误差,现有的 RGB-D 数据的建立通常是在有限的场景范围内收集的,数据集缺少多样性,对于光流而言,密集的运动状态标注甚至更加困难,因此,现有的许多基于 CNN 的方法主要使用合成场景数据集进行网络训练,但是合成场景数据集无法捕获真实场景数据集中才有的阴影、遮挡关系和其他的自然场景图像才有的统计特性,因此,直接将这些合成场景数据训练的模型运用到真实场景会出现一些难以避免的问题
    • 当前的一些工作已经被提出来用大规模的真实世界的场景视频训练卷积神经网络,这些方法的主要假设是利用颜色的一致性和空间的平滑性假设,但是这些假设不能够在运动的边缘区域成立,因此使得训练过程不稳定
    • 许多现有工作也尝试探索两个任务之间的几何关系,根据估计的深度和相机姿态信息,这些方法通过后向投影得到三维场景流信息进而产生密集的光流信息,然而这些方法在合成光流时都假设模型对于深度和姿态估计是精确的,因此,对于深度和相机姿态的不准确预测都会造成不准确的光流预测
    • 本文提出对单目深度估计模型和光流估计模型的联合训练框架,框架使用无标注的视频帧序列作为输入,主要思想在于深度、相机姿态和光流预测结果彼此之间应当具有一致性,通过探索这样的几何一致性,本文提出了跨任务的一致性损失函数用于提供监督信号训练网络,通过实验证明,本文的方法可以在许多测试数据集上有效进行深度估计,实验结果表明本文的方法可以显著改善两个模型的性能,提出的深度估计模型和光流估计模型达到了无监督 SOTA 方法的性能
  • 相关工作
    • 有监督深度和光流估计:标注数据、序数回归、预训练与精调
    • 自监督深度和光流估计:颜色一致性、空间平滑性、warp 操作、连续视频帧/双目图像帧、无监督代理损失、训练的稳定性和参数依赖
    • 几何线索
    • SfM
    • 多任务学习
  • 方法
    • 方法概览
      • 目标:设计无监督学习框架用于单目深度估计网络和光流估计网络的联合训练,数据输入为无标注的视频帧序列
      • 给定两张连续帧图像 ( I t , I t + 1 ) (I_t,I_{t+1}) (It,It+1) 首先对两个帧分别进行深度估计并估计两个帧之间的前向及后向光流,然后估计两个图像帧之间的 6D 的相机姿态转换
      • 根据估计的深度图和估计的相机姿态,可以产生 3D 场景流,这个场景流可以后向投影到图像平面合成二维的光流,本文将这个合成的光流成为刚性光流
      • 假设场景大多数都是静态的,则合成的刚性光流应当和光流估计网络的结果保持一致,但是,两个分支的预测结果可能彼此不一致,因此,根据刚性光流和预测光流之间的差异可以作为网络训练的额外的监督信号
      • 因此本文提出跨任务一致性损失用用强制使用该约束作为训练损失,而其中的非刚性转换则无法通过相机姿态实现,因此通过前向后向的一致性检查来识别有效区域,对于不一致的区域则避免使用跨任务一致性损失
      • 整体目标函数: L = L p h o t o m e t r i c + λ s L s m o o t h + λ f L f o r w a r d − b a c k w a r d + λ c L c r o s s L=L_{photometric}+\lambda_s L_{smooth}+\lambda_f L_{forward-backward}+\lambda_c L_{cross} L=Lphotometric+λsLsmooth+λfLforwardbackward+λcLcross
    • 基于深度和姿态预测的光流合成
      • 给定两个图像帧 I t , I t + 1 I_t,I_{t+1} It,It+1,预测的深度图 D ^ t \hat D_t D^t、姿态 T ^ t → t + 1 \hat T_{t \to t+1} T^tt+1 则希望建立两个图像帧之间的密集的像素对应关系, p t p_t pt 表示二维的 I t I_t It 中的像素的同构坐标, K K K 表示箱子参数矩阵,则图像 I t + 1 I_{t+1} It+1 中的对应像素可以计算为 p t + 1 = K T ^ t → t + 1 D ^ t ( p t ) K − 1 p t p_{t+1}=K\hat T_{t \to t+1} \hat D_t(p_t) K^{-1}p_t pt+1=KT^tt+1D^t(pt)K1pt
      • 因此可以得到合成的前向的刚性流 F r i g i d ( p t ) = p t + 1 − p t F_{rigid}(p_t)=p_{t+1}-p_t Frigid(pt)=pt+1pt
    • 颜色一致性和空间平滑性先验
      • 图像损失
        • 假设图像帧 I t I_t It I t + 1 I_{t+1} It+1 ,和估计的光流 F t → t + 1 F_{t\to t+1} Ftt+1 则可以得到从 I t + 1 I_{t+1} It+1 重新投影的图像帧 I ‾ t \overline I_{t} It
        • 图像损失 L p h o t o m e t r i c = ∑ p ρ ( I t ( p ) , I ‾ t ( p ) ) L_{photometric}=\sum_p \rho(I_t(p),\overline I_t(p)) Lphotometric=pρ(It(p),It(p)),其中的 ρ ( ⋅ ) \rho(\cdot) ρ() 表示像素值之间的差异,可以使用 L1 范数等损失,本文使用基于三元统计变换 ternary cencus transform 的损失,能够更好处理复杂光照改变
      • 平滑性损失
    • 前向后向一致性
      • 有效掩膜:基于遮挡区域检测的前向后向一致性假设,将不满足一致性约束的像素标记为无效像素
      • 将有效像素表示为 V 区域中的像素,可以修改图像损失为 L p h o t o m e t r i c = ∑ p ∈ V ρ ( I t ( p ) , I ‾ t ( p ) ) L_{photometric}=\sum_{p \in V} \rho(I_t(p),\overline I_t(p)) Lphotometric=pVρ(It(p),It(p))
      • 前向后向一致性损失:除了使用前向后向一致性检测识别无效区域,本文进一步使用有效区域的约束使得网络可以生成前向后向一致的预测结果
      • L f o r w a r d − b a c k w a r d , f l o w = ∑ p ∈ V f l o w ∥ F t → t + 1 ( p ) + F t + 1 → t ( p + F t → t + 1 ( p ) ) ∥ 1 L_{forward-backward,flow}=\sum_{p \in V_{flow}}\|F_{t \to t+1}(p)+F_{t+1 \to t}(p+F_{t \to t+1}(p))\|_1 Lforwardbackward,flow=pVflowFtt+1(p)+Ft+1t(p+Ftt+1(p))1
      • L f o r w a r d − b a c k w a r d , d e p t h = ∑ p ∈ V d e p t h ∥ D t ( p ) − D ‾ t ( p ) ∥ 1 L_{forward-backward,depth}=\sum_{p \in V_{depth}}\|D_t(p)-\overline D_t(p)\|_1 Lforwardbackward,depth=pVdepthDt(p)Dt(p)1
    • 跨任务一致性
      • L c r o s s = ∑ p ∈ V d e p t h ⋂ V f l o w ∥ F r i g i d ( p ) − F f l o w ( p ) ∥ 1 L_{cross}=\sum_{p \in V_{depth} \bigcap V_{flow}}\|F_{rigid}(p)-F_{flow}(p)\|_1 Lcross=pVdepthVflowFrigid(p)Fflow(p)1
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值