论文笔记-Depth Prediction Without the Sensors

最新推荐文章于 2021-03-08 18:51:21 发布

kingsleyluoxin

最新推荐文章于 2021-03-08 18:51:21 发布

阅读量551

点赞数 1

分类专栏：计算机视觉论文笔记深度学习文章标签：计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/kingsleyluoxin/article/details/108114658

版权

论文笔记同时被 3 个专栏收录

61 篇文章 1 订阅

订阅专栏

深度学习

57 篇文章 2 订阅

订阅专栏

计算机视觉

56 篇文章 4 订阅

订阅专栏

论文信息
- 标题： Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
- 作者：Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova
- 机构：Harvard University; Google Brain; University of Texas at Austin
- 出处：AAAI 2019
代码链接
- https://sites.google.com/view/struct2depth
论文主要贡献
论文要点翻译
- 摘要
  - 从 RGB 彩色图像预测深度值并不容易，本文主要使用无监督学习的方法进行场景深度预测和机器人姿态预测，预测的输入数据源是单目的视频，主要考虑到相机采集数据的成本是最低廉的，而且限制条件少，也是机器人中最普遍的传感器
  - 之前的无监督图像到深度的估计已经有比较好的结果了，本文提出的新方法可以对运动物体进行建模，生成更高质量的预测结果，且模型的泛化能力较强，比如能够从室外场景迁移到室内场景
  - 本文的主要思想在于将几何结构信息引入学习过程，对场景和单独的物体之间的关系进行建模，根据输入的单目视频预测对应的相机姿态和目标运动状态，据此进行在线的优化，以此实现将学习的模型迁移到未知 domain
  - 提出的方法超过了所有的 SOTA 方法，包括一些处理运动状态的方法，结果甚至和使用双目数据作为监督信号的方法具有可比性，并在包含目标运动的场景中显著改善深度预测的结果，由于模型泛化能力较强，其实际可用性高，能够将用室外机器人导航数据训练的模型迁移到真实的室内场景
- 引言
  - 利用输入图像预测场景深度是机器人导航领域的重要研究点，监督学习方法已经利用 DCNN 模型取得较大成功，但是监督学习需要昂贵的深度传感器采集深度数据进行模型训练，这在实际的机器人导航场景中可能并不能满足，因此出现了许多的无监督的图像到深度的估计模型，有的模型甚至无监督训练后取得的结果比监督学习的结果更好（这主要由于传感器采集的结果有噪声值或者缺失值），在这些场景下，无监督学习方法能够取得更好的结果，无监督方法主要使用双目立体数据或者在训练时单独训练光流模型
  - 本文提出新的方法显式地对运动物体的三维运动信息进行建模，同时对相机姿态进行预测，模型能够通过在线优化的方式较好地适应到新环境。通过规范化的处理运动和新引入的目标大小约束，本文是第一个有效从单目的数据中学习动态场景的信息的方法
  - 方法在学习过程中引入结构信息，主要把三维物体进行表示，把运动建模为 SE3 转换，主要通过全可到的操作进行，直接利用未校正的单目视频进行训练
  - 在两个公开数据集上的实验结果显示，算法在生成深度图和姿态估计结果方面得到较好的预测结果，甚至和使用双目数据的 SOTA 模型具有可比性，模型还具有较强的泛化能力，在一个数据集上训练，另一个数据集上的测试结果依然较好
  - 本文是第一个将在线学习引入无监督域迁移领域的工作
- 相关工作
  - 场景深度估计：Eigen 等的 baseline 方法及相关的一系列发展的方法，无监督条件下的深度估计方法
  - 之前的方法在实际的动态场景中难以处理运动的物体，因为之前的方法没有对运动物体进行建模和考虑，因此光流模型可以被用于优化结果
  - 本文的运动模型使用预训练模型，但是引入了几何结构信息，并对场景中的物体运动和相机姿态进行建模
- 方法
  - 条件设置：对场景深度和相机姿态的无监督估计；输入源为单目视频
  - 本文提出的新方法能够通过对物体运动的建模对动态场景进行建模，模型能够根据学习策略以在线学习的方式进行优化调整，两个方向是正交的，可以单独使用，也可以联合使用，在对比实验中说明了单独使用和联合使用的效果
  - 问题设置
    - 输入为至少三张的连续图像序列 $(I_1,I_2,I_3), I_i \in \mathbb{R}^{H \times W \times C}$ 和相机参数矩阵 $\in\mathbb{R}^{3 \times 3}$ ，通过学习一个非线性映射（例如神经网络），得到深度函数 $\theta:\mathbb{R}^{H \times W \times 3} \to \mathbb{R}^{H \times W}$ ，该函数时全卷积的编码器-解码器结构的网络，生成致密的深度图 $D_i=\theta(I_i)$ ；相机姿态预测网络 $\psi_E:\mathbb{R}^{2 \times H \times W \times 3}\to \mathbb{R}^6$ ，该函数输入为两张 RGB 图像序列，生成两个图像帧之间的 SE3 转换关系，例如：六维的转换向量 $E_{1 \to 2}=\psi_E(I_1,I_2)$ ，表示为 $t_x,t_y,t_z,r_x,r_y,r_z)$ ，该向量制定了转换和旋转的参数
    - 通过图像的重投影操作（warping），从一张图像重建到另一张相邻帧图像，可以从一个相机视角的图像想象另一张视角的相机图像大概的样子，由于深度估计网络可以获取场景的深度信息，因此两个图像帧之间的姿态运动关系可以通过图像的投影操作获取，具体来说，操作 $\phi(I_i,D_j,E_{i \to j}) \to \hat I_{i \to j}$ 表示可可导的图像 warp，由该操作可以的从输入图像 $I_i$ 和预测深度 $D_j$ 以及相机姿态 $E_{i \to j}$ 得到重建的图像 $\hat I_{i \to j}$ ，根据重建图像帧与原图之间的 L1 误差作为重建损失 $L_{rec}=\|\hat I_{1 \to 2}-I_2\|$
  - 算法基准
    - 使用最近的最好的结果（Zhou 2017 和 Godard 2018），重建损失通过两个相邻帧之间的最小重建误差损失进行计算 $L_{rec}=min(\|\hat I_{1 \to 2}-I_2\|,\|\hat I_{3 \to 2}-I_2\|)$
    - 利用 SSIM 损失和深度圆滑性损失增加训练的正则约束
    - $L=\alpha_1 \sum_{i=0}^3L_{rec}^{(i)}+\alpha_2 L_{ssim}^{(i)}+\alpha_3\frac{1}{2^i}L_{sm}^{(i)}$
  - 运动模型
    - 引入的物体运动模型 $\psi_M$ 和 $\psi_E$ 结构相同。但是专门用于预测三维物体的运动，其输入为 RGB 图像序列，实现使用预训练的实例分割模型，运动模型被用来学习预测三维空间的物体转换向量
    - 根据实例分割的掩膜，将序列中的潜在的每个物体对象，进行掩膜，定义静态场景的二元掩膜，移除场景中的无关物体
    - 运用相机姿态估计估计两个图像重建结果和图像之间的转换的相机姿态，假设相机姿态预测和深度预测正确，则序列中没有对齐的情况就是运动导致的，据此计算物体的运动转换模型
  - 物体大小约束
    - 之前的模型对物体的尺度信息没有了解
    - 让网络在没有输入其他数据的条件下学习相关的所有的约束
    - 针对每个物体学习其先验的高度信息
  - 测试时优化学习

kingsleyluoxin

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文笔记-Depth Prediction Without the Sensors

论文信息标题： Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos作者：Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova机构：Harvard University; Google Brain; University of Texas at Austin出处：AA..
复制链接

扫一扫