CVPR2021目标检测 | 通过可微分神经渲染数据增强（附github源码及论文下载）

最新推荐文章于 2024-04-10 21:43:28 发布

计算机视觉研究院

最新推荐文章于 2024-04-10 21:43:28 发布

阅读量2.1k

点赞数 3

文章标签：计算机视觉机器学习人工智能深度学习神经网络

本文链接：https://blog.csdn.net/gzq0723/article/details/114859402

版权

欢迎关注“

计算机视觉研究院

”

计算机视觉研究院专栏

作者：Edison_G

在带标签的数据稀缺时，训练一个鲁棒的目标检测器是很具有挑战性的。现有的解决这一问题的方法包括从未标记数据中插值标记数据的半监督学习，以及通过前置任务利用未标记数据中的信号自监督学习。

长按扫描二维码关注我们

回复“DANR”获取论文

及Github代码

最近我们创办“计算机视觉研究院”企业微信学习群，有兴趣的同学可以加入我们一起来学习，探讨问题、解决问题，共同进步！

1、动机&摘要

在不改变监督学习范式的情况下，我们引入了一种离线目标保护离线数据增强方法，该方法在语义上用新的视图插入训练数据。具体地说，提出的系统基于可微神经渲染生成训练图像的可控视图，以及相应的不涉及人工干预的边界框注释。

首先，在估计深度映射的同时，提取并投影出与像素对齐的图像特征到点云中。然后，用一个目标相机的姿势重新投影它们，并渲染一个新的视图2d图像。以关键点形式出现的目标会在点云中进行标记，以恢复新视图中的注释。它完全兼容在线数据增强方法，如仿射变换、图像混合等。

广泛的实验表明，新方法作为一种免费的工具来丰富图像和标签，可以显著提高训练数据稀缺的目标检测系统的性能。

2、相关工作

Data Augmentation

数据增强是缓解数据稀缺问题的一种强大方法，因为增强数据将代表一组潜在的更全面的数据点，缩小训练和测试集之间的差距。通常，这些方法可以分为data warping和oversampling。data warping增强转换现有的图像，同时保留标签。oversampling增强创建合成实例以添加到训练集中，通常用于重新采样不平衡的类分布。方法也可以分为在线和离线，这取决于何时发生增强过程。

Neural Rendering

在认知计算机视觉领域，大多数现有的任务都与感知有关，即从图像、视频或三维点云感知信息。这是一个二维或三维推理的过程。典型的任务包括目标检测、人体姿态估计、分割、三维形状估计等。在计算机图形领域中，渲染是由几何、材料、场景灯和摄像机属性定义的三维场景的图像生成过程。

神经渲染的目的是弥合2D和3D处理方法之间的差距，允许神经网络在2D投影上操作时优化3D实体。可微神经渲染的应用包括：新颖的视图合成、语义照片操作、面部和身体重构、再照明、自由视点视频或简单地生成高质量的图像。

新提出的增强方法是受新颖视图综合的启发，它与在线数据增强方法完全兼容，并且可以结合在一起，以新的语义进一步增加数据集。在【C. Bowles, L. Chen, R. Guerrero, P. Bentley, R. Gunn, A. Hammers, D. A. Dickie, M. V. Herna ́ndez, J. Wardlaw, and D. Rueckert, “Gan augmentation: Augmenting training data using generative adversarial networks,” arXiv preprint arXiv:1810.10863, 2018.】中，GAN被描述为一种从数据集“unlock”附加信息的方法。通过神经渲染，进一步以高度可控的方式解锁数据集信息。数据的插值是非线性的，在3D中提供了新的空间语义，这对于目标检测任务是非常有价值的。

3、新框架

对DANR系统的概述如下图所示。该系统的目的是用新的视图图像来增强目标检测数据集，以提高目标检测器的性能。增强图像的数量和相机姿态的变化的程度都是可控的。该系统的核心是建立在一个新的视图合成模型之上，如上图所示。该模型以一个RGB图像I和一系列2D图像关键点Bi（表示边界框注释）作为输入。

DANR

详细描述了数据增强系统。首先，列出了使用的最先进的网络和特定的设置。然后介绍了点云投影过程以及如何自动匹配目标视图中注释的生成。最后描述了用于训练整个系统的损失。

Networks.

使用hourglass network作为深度电子计时器，因为这种类似UNet结构在探索跨多个尺度的全局方面被证明是有利的。估计一个像素的深度需要理解全局特征和局部特征，这对感知相对深度很重要。叠加了两个4层hourglass network，最大频道数为256。在最后一个卷积层上使用了一个1×1滤波器来生成深度贴图。对于点投射后的特征提取器网络工作和细化网络，继续使用Encoder-Decoder networks，但做了一些修改：（1)当输入分辨率设置为512×512时，将特征通道减少到64；(2）用inception-resnet替换了basic resnet block，因为特征的连接进一步巩固了表达能力。

Loss.

其他内容请自行阅读论文！

4、实验结论

我们开创“计算机视觉协会”知识星球一年有余，也得到很多同学的认可，我们定时会推送实践型内容与大家分享，在星球里的同学可以随时提问，随时提需求，我们都会及时给予回复及给出对应的答复。

如果想加入我们“计算机视觉研究院”，请扫二维码加入我们。我们会按照你的需求将你拉入对应的学习群！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

计算机视觉研究院

长按扫描二维码关注我们

回复“DANR”获取论文

及Github代码

计算机视觉研究院

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
2
评论
CVPR2021目标检测 | 通过可微分神经渲染数据增强（附github源码及论文下载）

欢迎关注“计算机视觉研究院”计算机视觉研究院专栏作者：Edison_G在带标签的数据稀缺时，训练一个鲁棒的目标检测器是很具有挑战性的。现有的解决这一问题的方法包括从未标记数据中插值标记数据...
复制链接

扫一扫