每天一篇论文 346/365 Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real Domain Shift and

最新推荐文章于 2024-08-31 00:12:39 发布

流浪机器人

最新推荐文章于 2024-08-31 00:12:39 发布

阅读量531

点赞数

分类专栏：每天一篇论文365

本文链接：https://blog.csdn.net/qq_26623879/article/details/104911553

版权

每天一篇论文365 专栏收录该内容

146 篇文章 73 订阅

订阅专栏

Domain Decluttering: Simplifying Images to Mitigate Synthetic-Real Domain Shift and Improve Depth Estimation（CVPR2020）

Code

核心思想是通过注意力网络将用来深度估计得真实图片合成训练图片，缩小两者之间的差距。

深度估计误差类型
在这里插入图片描述

摘要

利用合成渲染数据提高单目深度估计的潜力很大，但缩小合成真实域的距离是一项非常重要的任务。虽然最近的许多工作都集中在无监督的领域适应上，但我们考虑的是一个更现实的场景，其中大量的合成训练数据由一组具有基本事实的真实图像补充。在这种情况下，我们发现现有的域转换方法很难训练，而且与使用真实数据和合成数据混合的简单基线相比也没有什么优势。一个关键的失败原因是真实世界的图像包含新的对象和在综合训练中不存在的杂波。现有的图像转换模型无法处理这种高层次的域转换。基于这些观察结果，我们开发了一个注意模块，该模块学习识别和去除真实图像中的（硬）域，以改进主要基于合成数据训练的模型的深度预测。我们进行了大量的实验来验证我们的attendremove完全方法（ARC），并发现它在深度预测方面明显优于最新的领域自适应方法。可视化移除的区域提供了对合成真实域差距的可解释性。

贡献

我们研究了利用合成数据和少量带注释的真实数据来学习更好的深度预测的问题，并揭示了当前无监督域自适应方法在这一背景下的局限性。
1.我们提出了一种原则性的方法（ARC），该方法学习识别、去除和完成现实世界图像中的“硬”图像区域，这样我们就可以翻译真实图像以缩小合成的真实区域间隙，从而改进单目深度预测。
2.我们进行了大量实验，以证明我们的ARC模型的有效性，它不仅优于最先进的方法，而且为了更好的深度预测通过解释在真实图像中要删除的内容提供了良好的可解释性。

方法

合成数据集的意义
利用合成数据对于语义分割等任务尤其重要，因为语义分割需要在每个像素处使用细粒度标签，并且手动注释成本高昂。更具挑战性的是像素级回归任务，其中输出空间是连续的。其中一个任务，我们的论文的重点，是单目深度估计，其中唯一可用的真实地面图像来自专门的传感器，通常提供噪声和不完整的估计。
通常GAN进行图像转换但不针对具体任务
通过无监督生成模型（例如使用GAN[20]或CycleGAN[60]）来缩小领域差距的方法越来越受到关注和发展。这些方法假设通过学习一个域不变的特征空间或将合成图像转换成逼真的图像，可以在很大程度上解决域自适应问题。这两种方法都依赖于一个对抗性的鉴别器来判断特征或翻译的图像是否跨域相似，而无需具体考虑相关任务。
深度图像域转换得考虑转换后图像几何特征
与图像分类中的域自适应不同，在域自适应中，外观发生变化，但标签集保持不变，深度回归中的域偏移不仅在输入（图像）的外观统计中，而且在输出（场景几何体）的统计中。为了理解几何统计是如何在合成场景和真实场景之间转换的，我们有必要至少获得一些真实的地面真相。这排除了完全依赖于无监督域适应的解决方案。

我们提出了一种原则性的方法，该方法使用一种有点非传统的翻译真实图像的策略来改进对真实图像的深度预测，使其更接近可用的大量合成训练数据。

Attend, Remove, Complete (ARC)

在这里插入图片描述
挑战
首先，由于合成实数域的差异，当包含合成训练数据时，深度预测器在实数图像上的测试时间性能并不明显。第二，假设模型确实受益于综合训练数据，那么如何最好地利用真实和综合领域差异的知识是一个悬而未决的问题。
Attend
这些区域不仅是真实图像中罕见的区域，而且还包括真实图像中常见的区域，但我们的综合训练数据库中没有这些区域。因此，找到这样的“硬区域”既依赖于深度预报器本身，也依赖于综合数据分布。为了发现这种复杂的依赖关系，我们利用一个注意力模块A，它学习从真实世界的输入图像中自动检测这样的“硬区域”。
一个挑战是，生成二值掩码通常涉及一个不可微的硬阈值操作，并且防止使用反向传播进行端到端的训练。为了解决这个问题，我们使用Gumbel-Max技巧[21]，它使用连续松弛来产生准二元掩模
Inpainting Module I
为了避免中断深度预测，我们希望填充一些合理的值（不改变无遮罩像素）。为此，我们采用了一个修复模块I，它利用来自综合数据分布和深度预测损失的知识来学习填补漏洞：
在这里插入图片描述
首先重建损失:

另外，我们有两个知觉损失：

第二个感知损失是样式重建损失，它惩罚颜色、纹理和常见图案的差异。风格重建损失：

最后，我们加入了一个对抗性的损失adv来强制修复模块I填充下面的合理像素综合数据分布：
在这里插入图片描述