论文笔记-Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation

最新推荐文章于 2023-09-16 20:15:44 发布

kingsleyluoxin

最新推荐文章于 2023-09-16 20:15:44 发布

阅读量358

点赞数

分类专栏：计算机视觉论文笔记深度学习文章标签：计算机视觉人工智能深度学习神经网络机器学习

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/107852479

版权

论文笔记同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

深度学习

57 篇文章 2 订阅

订阅专栏

计算机视觉

56 篇文章 4 订阅

订阅专栏

论文信息
- 标题： Structured Coupled Generative Adversarial Networks for Unsupervised Monocular Depth Estimation
- 作者：Mihai Marian Puscas, Dan Xu, Andrea Pilzer, Niculae Sebe
- 机构：Huawei Technologies Ireland, University of Trento, University of Oxford
代码链接
- https://github.com/mihaipuscas/3dv—coupled-crf-disparity
- （代码还未上传）
论文主要贡献
- 新的 CRF 耦合的双 GAN 网络，模型可用于无监督单目深度估计任务，隐式地探索使得生成对抗学习、结构信息学习之间在同一网络中相互促进
- 模型包含两个 GAN 分支结构，用于探索双目立体图像对之间的关系，指导更好的学习视差图，耦合 CRF 的模型被实现为 CNN 的形式，用于将两个自网络进行结构化地混合，同时也是生成器和判别器的结构连接
- 在 KITTI 等多个数据集的实验说明了提出的模型的有效性，模型可进一步用于其他基于应用处理的富结构信息的 GAN
论文要点翻译
- 摘要
  - 受到对抗学习成功的启发，本文提出用于单目深度估计的端到端无监督学习框架，框架由两个生成对抗网络组成，和一个结构的条件随即成深度耦合。两个 GAN 主要用于生成不同的、互补的视差图，通过对抗学习的策略提高生成图像的质量
  - 深度耦合的 CRF 模型用于将两个 GAN 生成的判别的输出进行混合，使得网络隐式地挖掘两个网络之间的相互的约束关系，挖掘生成器与判别器之间的相互约束关系，最终使得模型能够对网络进行整体优化，进而获得更好的视差估计性能
  - 多个数据集上的实验结果说明了提出模型的有效性，比起 SOTA 方法具有更好的性能
- 引言
  - 单目深度估计是计算机视觉中的典型任务，在自动驾驶、视觉 SLAM 等领域都有应用，基于监督学习的方法主要不足在于对深度标注数据的严重依赖，因此一些方法试图使用自监督的视角合成方法约束深度估计，减少对深度标注数据的依赖，这个情况下，视角合成的质量直接影响了最终的深度估计的性能
  - 对抗学习再文献【13，22】中被用于深度估计的合成任务的改进，通过加上框架级的判别损失，用于提高图像合成的质量，但是预测的深度图和判别的误差图有很多有价值的结构信息，比如输入图像中的物体信息等在输出中和在误差图中有相似的结构信息
  - 标准的 GAN 无法直接利用这些结构信息，且判别器不是直接链接的，所以无法之间显式地在网络反向传播的过程中流动梯度信息
  - 本文认为判别器和生成器两个自网络中都应该有丰富的结构信息，对这些结构信息进行联合建模可以同时优化判别误差图和视差图，进而提高深度预测模型的准确度
  - 本文提出了结构对抗模型，模型可用于无监督单目深度估计，模型由两个生成对抗网络组成，将用于训练的双目立体图像作为输入，两个分支分别进行图像合成，图像合成的过程就是每个分支中的 GAN 的 G 和 D 的博弈过程，最终生成的视差图用于视角合成，通过混合自网络学习的信息，在推理过程中，模型可以只接收一个图像输入
  - 其次，本文提出使用深度 CRF 模型在两个级别进行网络的耦合：将双目立体图像对的两个图像对应的两个分支进行绑定，使得互补的双目立体信息得以建模，同时，利用合成的深度图和判别的误差图中的结构信息，将网络的判别器和生成器子网络链接，两个维度的耦合将图像生成的通过使用结构误差进行约束，使得最终合成的深度图结构得以优化，学习到的 CRF 模型由生成器和判别器的误差决定
- 相关工作
  - 监督学习深度估计
  - 无监督学习深度估计
  - 概率图模型方法
  - 基于 GAN 的方法
- 方法
  - 双 GAN
    - 基本网络结构：网络输入是 N 对双目立体图像 ${(I_l^n,I_r^n)\}_{n=1}^N$ ，目标在于学习一个生成器能够估计到从 $I_l^n$ 到 $I_r^n$ 的视差图 $d_r^n$ ，监督信号使用的是利用 $I_l^n$ 和视差图 $d_r^n$ 合成右图 $\hat I_r^n$ 之后与原来的右图之间的差异，合成过程可以形式化为 $\hat I_r^n=f_w(d_r^n,I_l^n)$ ，其中的 $f_w$ 表示图像的合成过程
    - $G_a, G_b$ 分别用于生成两个视差图 $d_{r_a}和\ d_{r_b}$ ，再通过两个合成操作最终用于合成两张另外视角的图像
    - 由于 $d_{r_a}和\ d_{r_b}$ 来自于不同的两张输入图像，而相似的图像和重投影(warp)操作是在同样的图像上执行的，两个视差图可以对齐且是相互补充的，使用两个判别器 $D_a, D_b$ 分别用于判断合成图像的质量
  - TO DO (剩下部分还未阅读)