ICCV2021 Oral SimROD：简单高效的数据增强！华为提出了一种简单的鲁棒目标检测自适应方法...

最新推荐文章于 2024-09-10 11:12:52 发布

3Ｄ视觉工坊

最新推荐文章于 2024-09-10 11:12:52 发布

阅读量559

点赞数 1

文章标签：算法计算机视觉机器学习人工智能深度学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247581642&idx=3&sn=f37c9498412bc25efe90d1f7c555da09&chksm=fbfd94fecc8a1de8cf39cb1cdddec71dcd7c75f9cf30a7a774a2242dc6a4a6ec764d60b678cc&scene=126&&sessionid=0

版权

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨小马

来源丨我爱计算机视觉

▊ 写在前面

本文提出了一种简单有效的鲁棒目标检测无监督自适应方法(SimROD)。为了克服域转移（domain shift）和伪标签噪声（pseudo-label noise）等问题，本文的方法集成了域中心增强方法（domain-centric augmentation method） 、渐进的自标签适应机制（gradual self-labeling adaptation procedure） 和教师指导的微调机制（teacher-guided fine-tuning mechanism） 。

使用本文的方法，目标域样本可以用来调整目标检测模型，而不改变模型结构或生成合成的数据。当应用于图像损坏和高级跨域自适应基准数据集上测试时，本文的方法在多个域自适应基准数据集上优于之前的baseline方法。

▊ 1. 论文和代码地址

SimROD: A Simple Adaptation Method for Robust Object Detection

论文：https://arxiv.org/abs/2107.13389

代码：https://github.com/reactivetype/simrod

▊ 2. Motivation

当测试集的数据分布和训练集相似时，SOTA的目标检测模型能够达到比较高的精度。但是，当部署到新环境中时，比如天气变化（如雨或雾）、光照条件变化或图像损坏（如运动模糊），模型的精度就会大幅度下降。

这种失败不利于自动驾驶等场景，在这些场景中，域转移是常见且不可避免的。为了使它们在以可靠性为关键的应用程序中取得更高的性能，使检测模型对域转移具有更强的鲁棒性是很重要的。

目前，已经提出了许多方法来克服域转移的目标检测。它们大致可以分为数据增强、域对齐、域映射和自标记技术。数据增强 方法可以提高在一些固定的域位移集上的性能，但不能推广到与增强样本不相似的数据中。

域对齐 方法使用来自目标域的样本来对齐网络的中间特征。域映射 方法使用图像到图像的转换网络（比如：GAN）将标记的源图像转换为看起来像未标记的目标域图像的新图像。

自标记 是一种不错的方法，因为它利用了来自目标域的未标记的训练样本。然而，在域转移下生成准确的伪标签是困难的；当伪标签有噪声时，使用目标域样本进行自适应是无效的 。

在本文中，作者提出了一种简单的鲁棒对象检测自适应方法(SimROD)，利用域混合数据增强和教师指导下的逐步自适应策略来减轻域转移的影响。SimROD主要有三个特点：

1）首先，它不需要目标域数据的Ground Truth标签，而是利用未标记的样本。

2）其次，它既不需要复杂的模型结构更改，也不需要生成模型来创建合成数据

3）第三，它与模型结构无关的，并不局限于基于区域的检测器。

▊ 3. 方法

3.1. Problem statement

给定一个参数为θ的目标检测的源模型M，该模型由源训练数据集，进行训练，其中是一个图像，每个标签由目标类别和边界框坐标组成。

原始源数据D的输入分布：与目标测试集数据分布：之间存在偏移的情况。即，而。

在无监督的域自适应设置中，可以目标域取出了一组未标记的图像，在训练中可以使用这部分数据。任务的目标是将模型参数θ更新到θ中，以在源测试集和目标测试集上都能实现良好的性能。为了有效地利用中的附加信息，需要解决两个问题：

1）首先，目标训练集没有Ground Truth标签。

2）其次，利用源模型θ为生成伪标签会导致由域位移引起的有噪声监督，阻碍了自适应过程。

3.2. Simple adaptation for Robust Object Detection

本文提出了简单的自适应方法SimROD，以实现鲁棒的目标检测模型。SimROD集成了一种教师指导的微调 、一种新的DomainMix增强方法和一种逐步适应技术 。

3.2.1 Overall approach

本文方法的motivation是标签噪声会被域位移加剧 。因此，本文的方法旨在在目标域图像上生成准确的伪标签，并将来自源域和目标域的混合图像一起使用，从而为模型的调整提供强有力的监督信号。

由于学生目标模型可能不足以生成准确的伪标签，作者首先使用可以生成高质量伪标签的辅助教师模型，然后再用学生模型进行微调。整个算法的流程如上图所示。大致可以分为几步：

1）基于源数据，训练一个比学生模型容量大的源教师模型，得到参数θ。源教师模型用于生成目标数据上的初始伪标签。

2）利用逐步适应算法，将大型教师模型参数从θ逐步更改为θ。在这一步中，使用的是由DomainMix增强生成的混合图像，而不是单独的源数据集或者目标数据集的图片。

3）使用自适应的教师模型参数θ来细化目标数据上的伪标签。然后，使用这些伪标签来微调学生模型。

这种方法的一个好处是，它可以使小模型和大模型同时适应域的转移，因为即使在学生网络很小时，它也能产生高质量的伪标签。另一个优点是，教师和学生不需要共享相同的结构。因此，教师模型可以选择的一个参数量大、计算量大的模型来提高精度，学生模型可以选择一个轻量级的模型。

3.2.2 DomainMix augmentation

在本文中，作者提出了一种新的增强方法DomainMix。如上图所示，它均匀地对来自源域和目标域的图像进行采样，并将这些图像连同其（伪）标签混合到一个新的图像中。

上图显示了一个来自自然和艺术领域的DomainMix 图像的示例。

DomainMix使用了许多简单的想法来减轻域的转移和标签噪声：

它通过从源和目标集中随机采样并混合图片，产生一组不同的图像。它在每个epoch都使用了不同的图像样本，从而增加了训练样本的有效数量，防止了过拟合（原理类似CutMix数据增强）。
它的数据处理效率比较高，因为它使用了来自这两个域的加权平衡采样。这有助于学习对数据转移具有健壮性的表示，即使目标数据集的样本有限或源和目标数据集高度不平衡。
它在同一幅图像中混合了Ground Truth标签和伪标签。这减轻了自适应过程中错误标签的影响，因为图像总是包含来自源域的准确标签。

DomainMix的数据增强方法如上图所示，对于一个Batch中的每一幅图像，首先从源和目标数据中随机抽取另外三张图像，并混合这些图像的随机crop，在2×2的模板中创建一个新的域混合图像。

并将伪标签和真实标签都标注到混合的图片中，目标的边界框坐标是根据新的混合图像中每个crop的相对位置计算的。此外，作者使用加权平衡采样器从这两个域中进行均匀采样。

3.2.3 Gradual self-labeling adaptation

接下来，作者提出了一个逐步适应的方法来优化检测模型的参数，该算法减轻了标签噪声的影响。由源模型生成的伪标签可能在目标域图像上有噪声，直接微调模型所有的层会阻碍模型的适应。

作者提出了一种分阶段性的方法。首先，冻结了所有的卷积层，在前w个epoch只适应BN层，在第一阶段结束后，BN层的参数就被更新了。

然后使用部分适应的模型来生成更精确的伪标签，为了简单起见，它被离线完成。在第二阶段，所有的层都被解冻，然后使用精细的伪标签进行微调。在这两个阶段，都使用由DomainMix增强生成的混合图像样本。算法的流程如下所示：

▊ 4.实验

4.1. Synthetic-to-real and cross-camera benchmark Datasets

Sim10K to Cityscapes

上表展示了Sim10K到Cityscapes上，本文方法和SOTA方法的对比。

上图展示了与之前的baseline相比，SimROD将模型从Sim10K调整到Cityscapes的有效性。

KITTI to Cityscapes benchmark

上表显示了KITTI到Cityscapes上，本文提出的SimROD在性能上优于各种baseline方法。

4.2. Cross-domain artistic benchmark

上表展示了VOC（真实图片）到Watercolor（水彩画）数据集上的性能对比。

4.3. Image corruptions benchmark

Main results

上表显示了Pascal-C、COCO-C和Cityscapes-C数据集上的Yolov5m模型的实验结果。

Ablation Study

上表显示了Yolov5m模型在Pascal-C数据集上不同模块消融的实验结果。

Qualitative analysis

上表展示了一些本文方法和其他方法的一些检测结果的例子。

▊ 5. 总结

在本文中，作者提出了一种简单而有效的无监督方法来适应域位移下的检测模型。本文中的自标记框架采用了一种域中心的增强方法和教师指导的微调适应模型。基于现有的小模型和大模型，本文的方法在模型鲁棒性方面取得了显著的性能增益。本文的方法不仅减轻了由于低级图像损坏而引起的域位移的影响，而且在源域和目标域之间存在高级风格差异时，它也可以适应模型。

这篇解决的问题是如何让生成的伪标签更加好 ，因为如果直接用源模型生成伪标签效果并不好，会存在噪声。所以作者就把源模型生成的伪标签定义为初始伪标签，然后用一种数据增强的方式，将伪标签和真实标签都放在同一张图片中，类似CutMix，对教师模型进行微调。微调完了之后，再对目标数据集生成伪标签，这样的伪标签相比于初始伪标签的效果会更好。因此学生模型在这样的伪标签上进行微调效果也会更好。

▊ 作者简介

研究领域：FightingCV公众号运营者，研究方向为多模态内容理解，专注于解决视觉模态和语言模态相结合的任务，促进Vision-Language模型的实地应用。

知乎/公众号：FightingCV

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列三维点云系列结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：