论文笔记-Unsupervised Learning of Monocular Depth and Ego-Motion using Conditional PatchGANs

最新推荐文章于 2025-05-11 12:38:08 发布

kingsleyluoxin

最新推荐文章于 2025-05-11 12:38:08 发布

阅读量355

点赞数

CC 4.0 BY-SA版权

分类专栏：计算机视觉论文笔记深度学习文章标签：神经网络机器学习人工智能计算机视觉

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/108334165

论文笔记同时被 3 个专栏收录

61 篇文章

订阅专栏

深度学习

57 篇文章

订阅专栏

计算机视觉

56 篇文章

订阅专栏

本文提出一种基于条件PatchGAN的无监督学习框架，用于估计绝对尺度的深度和相机姿态信息，通过两个独立生成器分别学习深度和姿态分布，结合PatchGAN评估图像质量，实现对现有SOTA方法的超越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文信息

论文标题：Unsupervised Learning of Monocular Depth and Ego-Motion using Conditional PatchGANs
论文作者：Madhu Vankadari , Swagat Kumar , Anima Majumder and Kaushik Das
研究机构：TCS Research and Innovation, Bangalore, India
论文出处：IJCAI 2019

引用信息：

@inproceedings{DBLP:conf/ijcai/VankadariKMD19,
  author    = {Madhu Babu Vankadari and
               Swagat Kumar and
               Anima Majumder and
               Kaushik Das},
  editor    = {Sarit Kraus},
  title     = {Unsupervised Learning of Monocular Depth and Ego-Motion using Conditional
               PatchGANs},
  booktitle = {Proceedings of the Twenty-Eighth International Joint Conference on
               Artificial Intelligence, {IJCAI} 2019, Macao, China, August 10-16,
               2019},
  pages     = {5677--5684},
  publisher = {ijcai.org},
  year      = {2019},
  url       = {https://doi.org/10.24963/ijcai.2019/787},
  doi       = {10.24963/ijcai.2019/787},
  timestamp = {Tue, 20 Aug 2019 16:18:18 +0200},
  biburl    = {https://dblp.org/rec/conf/ijcai/VankadariKMD19.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}

代码链接：None

论文主要贡献和参考价值

主要贡献：提出新的条件 PatchGAN 用于估计绝对尺度的深度和姿态信息，能够达到 SOTA 方法的性能，通过可训练参数数量比较，提出的模型是本领域最轻量、运行速度最快的网络之一
参考价值：

论文要点翻译
- 摘要
  - 本文提出了新的基于 GAN 的深度学习框架用以估计绝对尺度的深度和相机运动姿态，主要利用单目图像数据以完全无监督学习的方式进行估计
  - 提出的框架主要使用两个独立的生成器分别学习深度的分布和相机姿态的分布，两个生成器的输入都是单目的图像序列，深度和相机姿态数据根据生成器学习到的分布模式进行估计输出，评估的时候使用基于 PatchGAN 的判别其，使用重建的图像和真实图像之间的判别损失进行评估
  - 基于 Patch 的 GAN 在之前的研究中表明其能够检测到高频的局部的结构上不合理的地方，因此可以在深度估计和姿态估计中对模型估计结果进行改进
  - 和传统的 GAN 不同，提出的结构中主要使用受条件控制的输入和生成器的输出作为网络训练的依据，得到的网络结构可以比现有的该领域的其他网络效果都好，在绝对误差上比 SOTA 方法提高 8.7%，RMSE 提高 5.2%
  - 本文是第一个基于深度学习模型，使用基于 patch 的 GAN 框架用于同时估计深度和相机姿态的研究工作，在 KITTI 上的实验结果说明了提出方法的有效性
- 引言
  - 基于彩色图像的深度估计和相机姿态估计是计算机视觉中的重要研究，在增强现实、自动驾驶等领域都有应用，最近的深度学习的进展已经使得该领域的估计性能达到新的水平，典型的深度估计模型通常使用监督学习框架，需要大量的标注数据进行训练，而标注数据的采集通常不易，为此，半监督学习方法使用稀疏标注的深度图数据或者使用合成场景数据等用于训练，而无监督学习方法则完全不使用标注的深度数据，在这些场景中，主要是使用时序的或者双目的图像中的几何约束信息用于估计深度和箱子姿态信息
  - 最近的这些方法中主要依赖于时序的一致性，因此缺乏绝对的尺度信息，预测的结果主要是相对的深度信息，本文主要考虑无监督学习条件下的估计方法，目标在于得到更好的性能
  - 现有的大部分无监督学习方法使用空间或者时间维度的图像重建损进行训练，图像重建损失通常使用 $L_{p;(p=1,2)}$ 范数或者 SSIM 结构相似性损失等作为损失函数，比起直接计算图像的重建损失，GAN 中的判别其直接评估重建的图像质量的好坏，这样的判别器在图像翻译、文本转图像等相关任务中都得到广泛运用，GAN 主要由两个部分组成，一个用于模拟潜在数据分布的生成器网络，和一个用于判断从原始数据分布生成的目标数据分布的真实性的判别器网络，这个模式的优势能够通过生成器和判别器的零和博弈达到最终的结果，对 GAN 的相关研究是的实际数据不可达时模型依然能够生成逼真的合成数据，也有许多工作基于 GAN 利用双目图像数据或者单目的数据进行深度和相机姿态的估计
  - 在上述的基于 GAN 的深度估计和相机姿态估计任务（ [Kumar et al., 2018], [Aleotti et al., 2018], [Pilzer et al., 2018], [Almalioglu et al., 2019]）中，深度和姿态网络用作生成器使得模型能够生成精确的深度图或者相机姿态信息，生成器的输出通过判别其使用真实图像和生成的图像作为输出，评估生成图像的质量，换言之，条件控制的生成器输出经过判别器进行质量评估
  - 本文工作中采用上述的条件 GAN 用于估计绝对尺度的深度和相机姿态数据，网络输入是单目或者双目的图像，不像之前的方法只是用一个标量值表示该图像是真的或者家的，本文提出使用基于图像 patch 的判别其，评估一系列小 patch 的真假性，即著名的 PatchGAN，其中可以捕获高频的局部结构信息，这些信息在传统的 L1、L2 损失中经常是被忽略的，此外，该模型是全卷积的方式，使得模型能够快速训练
  - 基于上述观察和直觉，本文设计提出了新的基于 GAN 的用于深度估计和相机姿态估计的网络，生成器的输入是给定的一张图像输入，输出是深度或者相机姿态信息，提出的框架使用但个判别器网络同时评估生成的深度图和姿态信息，结果得到的效果使得提出的模型超过现有的 SOTA 方法，达到新的性能基准，方法的有效性通过在 KITTI 数据集上的饰演结果得到说明
- 方法
  - GAN 是生成模型，能够捕捉从输入的数据到输出数据之间的映射关系，条件 cGAN 能够学习输入图像到输出图像之间的映射关系，条件 GAN 的优势在于能够指导生成器输出特定上下文条件下的高质量输出，能在要求输出一对多条件的数据，本文利用 GAN 的这个优势，基于单目的图像序列，生成深度数据和相机姿态信息，生成 G 由两个深度网络组成，一个网络用于估计视差信息，另一网络用于估计相机姿态信息，两个信息通过视角合成模块 V 合成新的图像，重建的图像利用全卷积的基于 patch 的判别器 D 判断其真实性
  - 生成器模块：视差和相机姿态估计
    - 直接从图像估计深度有两个不足：（1）深度预测的不确定性随着场景距离的提高而增加；（2）水平线上的深度值有时可能是无穷大，使得很难根据梯度计算训练深度网络；典型的方法通过将预测深度转为预测视差，以此环节这两个不足，本文将原有的视差估计网络进行剪枝，得到一个只包含五个卷基层的网络，包含 8M 训练参数（原网络的1/4），给定一个双目图像的数据集， $X=\{I_l,I_r\}$ Disp-Net 将左图作为输入，预测从左到右的视差图 $d_l$ 和从右到左的视差图 $d_r$ ，视差可以根据光心距离 b 和相机焦距 f 转换为深度 $d^=bf/d\hat d = bf /d$
    - 姿态网络则是一个卷积的编码器加上一个全连接层，网络将 n 个时序对齐的图像数据作为输入，预测相对的姿态 $O$ ， $O$ 包含转换 $t_x,t_y,t_z)$ 和旋转 $(ρ,θ,ψ)(\rho,\theta,\psi)$
    - 两个网络组成生成器模块，从给定的输入图像序列中预测输出的图像
  - 视角重建模块
    - 视角重建模块 V 由两个子模块组成：空间重建模块 S 和时序重建模块 T
    - 空间重建模块 S 根据输入预测的视差图 ${d_l,d_r\}$ 结合原有的图像 ${Il,Ir}∈X\{I_l,I_r\}\in X$ 重建左右图像 $I~l,I~r\tilde I_l,\tilde I_r$
    - 时序重建模块 T 将输入的连续图像帧作为输入，个据中间图像帧的深度估计结果和预测的不同图像帧之间的相机姿态信息进行图像帧的重建
    - 重建模块 $V = (S, T)$ 使用双线性插值加上 RGB 彩色图像作为转换像素
  - 基于 patchGAN 的判别器
    - 传统的 GAN 的判别器用于判断输出图像的真假性，生成器输出没有真实值作为参考的深度估计或者姿态估计仅仅用一个标量值判断真假是不足的，因此本文的判别器应当评估合成重建图像（来自重建模块 V）的质量，换言之，判别器应当使用条件控制版本的生成器输出作为输入
    - 原始的 patchGAN 是用于图像翻译任务的，生成的是 m*n 的矩阵用来描述相应的 patch 的真假性
    - 捕捉局部 pathc 的高频的结构信息，使得网络可以有效判断生成器输出质量
    - 该判别器输入为图像对 $(I~,I)(\tilde I,I)$ 输出概率对 $(P(I~),P(I))(P(\tilde I),P(I))$ 用于判断重建图的真假性
  - 训练损失函数
    - 内容损失：包含外观损失、圆滑性损失和一致性损失
    - 对抗损失：
    - 最终损失：