DA-DETR: Domain Adaptive Detection Transformer by Hybrid Attention

最新推荐文章于 2024-08-08 18:07:23 发布

Wanderer001

最新推荐文章于 2024-08-08 18:07:23 发布

阅读量2.7k

点赞数

分类专栏：计算机视觉文章标签：图像处理计算机视觉

本文链接：https://blog.csdn.net/weixin_36670529/article/details/85006378

版权

计算机视觉专栏收录该内容

219 篇文章 88 订阅

订阅专栏

参考 DA-DETR: Domain Adaptive Detection Transformer by Hybrid Attention - 云+社区 - 腾讯云

摘要

领域自适应目标检测中流行的方法是采用两阶段架构(Faster R-CNN)，其中涉及大量超参数和手工设计，如锚、区域池化、非最大抑制等。这样的架构使得在采用现有的某些域适配方法应用到不同的特征对齐方式时变得非常复杂。在本工作中，我们采用一阶检测器并设计DA-DETR，这是一种简单而有效的域适配目标检测网络，通过一个单一的鉴别器实现域间对齐。DA-DETR引入了一个混合注意模块，它明确地确定了硬对齐特性，从而实现了简单而有效的跨域对齐。它通过消除复杂的例程，极大地简化了传统的域适配流程，这些例程涉及多个具有不同类型特性的对抗性学习框架。尽管它简单，大量的实验表明，与高度优化的最先进的方法相比，DADETR显示出更高的精度。

1、简介

目标检测一直是计算机视觉中的一个长期挑战，其目的是为图像中的每个目标分配一个边界框和一个类标签。基于深度学习的方法取得了巨大的成功，但代价是收集大量注释的训练数据，这些数据的代价是昂贵和耗时。规避这种约束的一种方法是在网络训练中利用来自不同但相关的“源域”的现成标记数据。然而，由于两个领域之间的分布差距，这样的训练模型在应用到“目标领域”时，往往会出现明显的性能下降。

无监督域自适应(UDA)被用来解决域间隔问题。大多数现有的工作基于一个复杂的两阶段架构(即Faster R-CNN)，它带有许多启发式和手工设计，如锚点生成、兴趣区域汇聚、非最大抑制等。为了迎合这样的架构，它们涉及多个目标和若干对抗性的鉴别器来对齐不同类型的特征，例如图像级特征(即骨干的输出)、实例级特征(即区域池化的输出)、层次特征(即:多个网络层的输出)如图1所示。虽然已经取得了相当可观的进展，但它们使网络设计变得复杂，不能充分获取不同网络组件之间的协同关系，经常导致不协调的网络训练和亚优检测模型。

我们采用了一种单级检测器并设计了DA-DETR，这是一种简单而有效的域自适应检测Transformer，通过一个单一的鉴别器实现域间对齐。DA-DETR引入了一个混合注意模块(HAM)，它明确地定位硬对齐特性，以便简单而有效地跨域对齐，如图1所示。HAM由两个顺序模块组成，一个是坐标注意模块(CAM)，它将位置信息嵌入通道注意中以寻找硬对齐的目标特征，另一个是水平注意模块(LAM)，它在变形级别上聚合多个尺度上的注意特征。与传统的独立空间注意和通道注意不同，CAM将主干特征分为两部分，并与Transformer编码器的潜在特征融合，从而获取丰富的上下文和位置信息。生成的功能然后被连接和打乱，以促进信息在通道之间的流动。通过这种设计，HAM可以明确地指出硬对齐特性，并使用一个鉴别器实现直接的域间对齐。大量的实验表明，DA-DETR极大地简化了领域自适应检测管道，并产生优于多个基准的检测。

这一工作的贡献可以概括为三个方面。首先，我们提出DA-DETR，一种简单而有效的域自适应检测网络，通过一个单一的鉴别器实现优越的特征对齐。其次，我们设计了一个混合注意模块，自动定位硬对齐的目标特征并有效地跨域对齐。第三，在多个领域的适应性基准上的大量实验表明，DA-DETR始终优于最先进的技术。

2、相关工作

目标检测：

近年来，CNN的发展极大地改善了目标检测。最先进的方法可以大致分为两类，即两级检测器和一级检测器。具体来说，两级检测器处理建议生成和建议预测的两个顺序任务，而单级检测器去掉建议生成阶段，直接定位图像中的目标。最近，基于Transformer的检测器已经被研究，消除手工设计，如非最大抑制和锚生成，并实现完全端到端检测。例如，对于目标检测任务，DETR[5]首先采用Transformer架构[47]。可变形的注意模块扩展了可变形的注意模块，显著减少了训练时间。然而，如何在领域自适应对象检测中利用Transformer体系结构，我们还没有进行过充分的探索。

无监督域适配：

UDA在目标检测中的目的是减小源域和目标域之间的域差距，从而利用源数据训练更好的目标数据检测器。现有的域自适应检测器大多采用Faster R-CNN，通过对抗式学习来对齐不同类型的特征(如骨干特征、ROI池中的实例级特征等)。例如，DA Faster R-CNN[8]是目标检测中处理UDA的第一个工作，它使用一致性正则化来获取多个特征对齐管道之间的协同关系。此外，也有少数研究对数据进行了转换，以减轻输入水平的域漂移，如[52]构建了一个更接近目标域的中间域，并采用自训练的方式进行域适配。与以往方法的复杂例程不同，我们提出的DA-DETR可以用一个鉴别器实现源和目标域的全面特征对齐，并获得更好的性能。

Attention机制：

注意机制在各种计算机视觉任务中得到了广泛的研究，用于引导模型关注信息图像区域。现有的注意机制大致可分为空间注意、通道注意和空间注意与通道注意的结合。具体来说，空间注意的目的是捕捉图像中的空间依赖性，而通道注意研究不同通道的卷积特征之间的关系。目前，CBAM、GCNet和SGE等一些研究都在努力将空间注意和通道注意结合起来，以更好地关注信息区域。不同于以往的工作，我们设计了一种最优融合多源注意的混合注意模块，用于领域自适应目标检测任务。

3、方法

本节介绍了所提出的域自适应检测Transformer(DA-DETR)，它引入了一个混合注意模块，用于与单个鉴别器进行最优特征对齐，如图2所示。它由五个子部分组成，分别是任务定义、框架概述、协调注意模块(CAM)(将位置信息嵌入通道注意以寻找硬对齐目标特征)、水平注意模块(LAM)(在变形级别上聚集多个尺度的注意特征) 和网络训练。

3.1、任务定义

研究了目标检测中的无监督域自适应(UDA)问题。它包括源域和目标域，其中被完全标记，表示样本图像的标签。目标是训练一个检测transformer，该Transformer在未标记的目标域数据退出上表现良好。基线模型仅用标记的源数据(即)进行训练：

其中T表示transformer编码器-解码器，表示监督检测损失，包括目标类别预测和目标框预测的匹配代价和Hungarian损失。

3.2、框架概览

如图2顶部所示，所提出的DA-DETR由一个基部检测器(包括一个主干检测器G和一个transformer编码器-解码器T)、一个鉴别器和一个混合注意模块(HAM) 组成。我们采用可变形的DETR作为基部检测器，其中G从输入图像中提取特征，T根据提取的特征预测一组边界框和预定义的语义类别。 HAM由两个子模块组成，分别是坐标关注模块(CAM)和水平关注模块(LAM)。从G的特性和编码器的位置信息T的E作为输入，HAM编码之间的位置信息来识别hard-aligned目标特性特性由G。

给定一个源图像和目标图像，骨干G将首先分别产生特征图谱和。然后，将骨干特征输入Transformer编码器E，得到潜在特征和。然后，HAM利用主干特征和，潜在特征和找出和之间的硬对齐特征和。最后，将识别出的和输入到鉴别器中，生成一个对抗性损失，用于域间特征对齐。对于源数据流，潜在特征也被提供给变压器解码器D来预测一组边界框和预定义的语义类别，这些将用于计算检测损失，在ground-truth label 的监督下。通过对抗性损失和检测损失对整个网络进行优化。

3.3、坐标Attention模块

混合注意模块(HAM)中的坐标注意模块(CAM)融合了空间注意和通道注意(由transformer编码器的潜在特征p计算)，对特征f进行最优重加权。由于transformer编码器由一组自注意组件组成，潜在特征p捕获了输入图像丰富的位置信息，能很好地反映图像各像素之间的相关性。因此，利用p可以有效地指导对硬对齐特征的定位。在我们的网络中，我们将骨干特征和潜在特征输入CAM (L表示第L个变形级别，在可变形的DETR中L = 4)。

分离Attention：

由于每个transformer级别的CAM操作是相同的，我们以第一级l = 1为例来说明我们如何进行坐标注意。给定一个潜在特性和骨干特征 (C, H, W表示信道的特征映射的数量,和特征映射的高度和宽度,分别)，首先分为K组均匀沿着通道,即，每组捕获输入图像的不同语义信息。为了协调注意，我们进一步将每组特征沿通道平分为和两部分。分割的特征将用于产生空间注意和通道注意。对于空间注意力生成，首先将特征输入到Group Normalization (GN)层，然后通过一个可学习的权重映射和一个可学习的偏差映射重新加权：

其中是激活函数将输入限制到[0,1]。

对于通道注意力生成，首先用全局平均池化(GAP)对特征进行压缩：

其中。

类似于空间注意力，被可学习的权重向量和可学习的偏差向量重新加权，以给内部的不同元素分配不同的权重：

其中是一个激活函数，将限制在[0; 1]。

与潜特征的操作相似，骨干特征也沿通道分为K组，即。每个分组进一步平均分成两部分，如和。

打乱Attention：

为了实现信息的跨信道通信，我们提出了shuffle attention。具体来说，我们首先通过相应的重新加权的潜在特征重新加权分裂特征：

其中函数表示沿通道的张量连接。空间注意力和注意力因此嵌入到中。由于空间和通道注意在组合特征中是独立的，我们沿着通道shuffle以使信息在通道间流动，从而更好地识别硬对齐特征。

最后，我们进行上述操作K次，为每组生成K个打乱注意力特征，即。将混合特征拼接得到坐标-注意力加权特征图：

其中，对进行了相似的运算。

3.4、层级Attention模块

上一节描述了CAM重新权重来识别硬对齐特性在每个级别。为了明确识别不同尺度的硬对齐特征(例如，区域和全局上下文特征)，我们设计了一个层次注意模块(LAM)来在变形级别上聚合不同尺度的特征。

具体地说，我们通过全局平均池化(GAP)层，将特征压缩成一个通道级向量。能级系数由通道方向的矢量通过合并和拆分两步得到。首先，将通道级向量合并到一起，通过元素级加法得到合并向量:

其中。

然后，一个全连通层将分离到L能级系数向量。最后，得到

其中是一个高度嵌入的特征，包含图像的空间和通道信息。

3.5、网络训练

本节提出了我们的建议如何DA-DETR实现跨域的一致性hard-aligned特性确定的混合关注模块。网络训练和两个损失，也就是说，式(1)中定义的监督目标检测损失，对抗对齐损失定义如下：

其中和，G表示骨干; E表示Transformer编码器; 表示混合注意模块(HAM)，表示鉴别器。利用源图像和目标图像计算对抗损失。综上所述，DADETR的总体优化目标由：

式中T为DETR中的Transformer，为对抗性损失的权重因子，平衡了和在训练中的影响。注意，我们采用梯度反向层(GRL)，使的梯度在从反向传播到之前被逆转。

4、实验

在本节中，我们将介绍实验，包括实验设置、实施细节、消融研究、与最新技术的比较和讨论，更多的细节将在确保小节中描述。

4.1、实验设置

数据集：

评估在三个数据集上进行，包括1)Cityscapes，这是为了理解街道场景而收集的。其图像采集自50个城市的正常天气条件下，包括2975张训练图像和500张验证图像，像素级实例标注8个类别。我们遵循之前的工作从像素级的实例注释生成边界框; 2) Foggy Cityscapes[42]是通过添加模拟雾的城市景观衍生出的合成数据集; 3)《SIM 10k》是电脑游戏《侠盗猎车手V》(GTA5)中的合成数据集。该数据集包含10,000张类别为“Car”的带注释图像。

域适配场景：

我们在两种广泛采用的适应场景下评估了DA-DETR，包括1)正常天气到大雾天气(Cityscape到Foggy Cityscape)，目的是实现域适应不同的天气条件，以Cityscape为源域，Foggy Cityscape为目标域。将两个数据集的训练图像用于训练，并在雾天城市景观验证集上进行适应性评估; 2)合成场景到真实场景(SIM 10K到Cityscapes)，以SIM 10K数据集的训练图像为源域，以Cityscapes的训练图像为目标域。通过共享类别“Car”对500张城市景观的验证图像进行评估。

4.2、实现细节

在所有实验中，我们采用ResNet-50骨干(在ImageNet上预训练)的可变形的DETR作为基础检测器。对于正常天气到大雾天气的适应场景，我们用SGD对网络进行了50个epoch的训练。前40个epoch的学习速率为0.0002，后10个epoch的学习速率为0.00002。为了使合成场景适应于真实场景，我们用SGD对网络进行了40个epoch的训练。前30个epoch的学习率为0.0001，后10个epoch的学习率为0.00001。 Eq. 10中的权重因子λ设为0.1，CAM中的分裂组数K固定为32。在评估中，我们报告的IoU的mAP阈值为0.5。

4.3、消融研究

提出的混合注意模块(HAM)包括一个坐标注意模块(CAM)和一个层次注意模块(LAM)。我们研究了这两个模块对无监督域自适应检测的贡献。表1为“正常天气到多雾天气”情景下对大雾城市景观验证数据的实验结果。表2为“合成场景到真实场景”场景下的城市景观验证数据的实验结果。

如表1所示，Baseline模型(对已标记源数据进行监督检测损失训练)由于域漂移而表现不佳。直接对齐(直接对齐骨干特征)将基线从34.0%提高到40.5%。提出的CAM有三种不同的形式，包括无拆分操作、无打乱操作和既有拆分操作又有打乱操作。我们可以观察到，所有三种类型的CAM都始终优于Direct-align，而“同时具有拆分和打乱操作”的设置表现最好。单单包括LAM也带来了1.2%的mAP改进。 HAM中CAM和LAM的合并得到最好的mAP，为43.5%，说明CAM和LAM是互补的。在“合成场景到真实场景”场景中得到了类似的结果，如表2所示。

4.4、和最先进方法的比较

由于一些比起之前研究的基于Transformer的域适配目标检测，我们比较建议的几个Faster R-CNN DA-DETR基础域适配方法，实现先进的检测性能见表3和图4的最高部分。此外，我们还将这些Faster R-CNN方法用于基于Transform的域自适应检测，以进行公平比较。域适配是通过保持域自适应模块不变，但将其后处理模块(如区域建议网络、建议分类模块等)替换为DETR中的编码器-解码器模块来实现的。自适应方法的检测性能(使用与提出的DADETR相同的基线)显示在表3和表4的底部部分。

此外，我们还对Cityscapes等两个域适应任务进行了上述对比实验，包括Cityscape到Foggy CItyscape和SIM 10K到Cityscape。实验结果如表3和表4所示。正如这两个表所示，Faster R-CNN或DETR都表现不佳，尽管DETR表现明显更好，因为它在图像级捕捉到丰富的注意力和上下文信息。通过包括域适配，所有使用Faster R-CNN和DETR的方法都有很大的改善，显示了它们在缓解跨域差距方面的有效性。此外，所提出的DA-DETR在两种适应任务中均明显优于现有的领域适应方法。这种出色的性能很大程度上归功于我们设计的混合注意力模块，该模块在图像级捕获更多的上下文特征，并通过更好的跨域对齐来识别硬对齐特征。定性比较如图3所示。

4.5、讨论

参数分析

参数K是重要的，它决定了我们的坐标注意模块(CAM)中拆分组的数量。通过将参数K的灵敏度从1改为64，研究了参数K的灵敏度。由于信道的个数(C)应能整除K组的个数，我们选择K = (1，4，8，16，32，64)，其中K = 1表示不分裂，K = 64表示每组特征包含4个通道。实验的任务是Cityscape到Foggy Cityscape和SIM 10K到Foggy Cityscape，实验结果如表5所示。可以看出，检测性能对参数K有较大的容忍度，当K = 32时性能最佳。

混合注意力vs.传统注意力

所提出的DA-DETR中的混合注意模块(HAM)在实现有效的跨域对齐方面发挥了重要作用，其中由HAM产生的注意可视化如图6所示。为了展示HAM如何以一种有效而独特的方式帮助缓解跨域差距，我们将HAM与最流行的注意方法应用于域适配，其中实验包括直接对齐(不含任何注意操作)、直接对齐传统空间注意、与常规通道注意直接对齐，与常规空间和通道注意直接对齐。通过两种类型的特征进行特征对齐，包括由变压器编码器产生的潜在特征和由骨干特征提取器产生的正规特征。

表6显示了在Cityscapes到Foggy Cityscape的实验结果。可以看出，由于域漂移，没有任何对齐的基线DETR表现不佳。简单的Direct-Align不涉及任何注意机制，在这两个特征空间中都大大优于基线。此外，进一步涉及传统空间注意、通道注意或两者都优于Direct-Align，证明了它们在跨域对齐中的有效性。也可以看出，所有的对齐方法在潜在特征空间表现更好。

在跨域对齐方面，所提出的HAM机制明显优于所有比较的注意机制。杰出的表现归因于三个主要因素。首先，HAM利用从变压器编码器捕获丰富的图像级和区域级上下文信息的潜在特征的空间和通道注意。二是通过通道分割和变换实现空间和通道注意的优化协调和融合，实现空间和通道注意之间的信息通信和流动，从而从二者的协同关系中获益。第三，HAM通过利用可变形的DETR架构，自然地在多个尺度上捕获注意力信息。最后生成的混合注意被用于重新加权CNN骨干特征，以明确地确定硬对齐特征，以实现有效的跨域对齐。

5、讨论

提出了一种无监督域自适应检测Transformer网络DA-DETR，利用单一的鉴别器实现源域和目标域之间简单而有效的特征匹配。提出的DA-DETR有两个独特的特性。首先，它通过消除涉及多个鉴别器和不同类型特征对齐的复杂例程，简化了域适配流程。其次，它通过一个简单的混合注意模块(HAM)明确地确定了硬对齐的特性，该模块可以有效地对齐跨域的特性。在多个域适配场景下的大量实验表明，DA-DETR在无监督领域自适应目标检测中取得了优异的性能。展望未来，我们将继续研究创新的跨域对齐策略，以更好地进行域适配应目标检测。