Towards Universal Object Detection by Domain Attention翻译

最新推荐文章于 2023-08-04 15:39:26 发布

WangKingJ

最新推荐文章于 2023-08-04 15:39:26 发布

阅读量439

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/wangkingj/article/details/102961508

版权

计算机视觉专栏收录该内容

30 篇文章 4 订阅

订阅专栏

论文链接

Abstract

尽管在视觉识别的通用表示方面的工作越来越多，但很少有人涉及到对象检测。在这篇文章中，我们开发了一个有效且高效的通用对象检测系统，它能够在各种图像领域工作，从人脸和交通标志到医学CT图片。与多领域模型不同，这个通用的模型不需要事先了解感兴趣的区域。它是通过引入一个新的适应层，基于挤压和激励原理，以及一个新的领域关注机制来实现的。在提出的通用检测器中，所有的参数和计算都是跨域共享的，并且单个网络始终处理所有域。在新建立的11个不同数据集的通用对象检测基准上的实验表明，该检测器的性能优于一系列单独的检测器，它在单域基准的检测器上增加了1.3倍的参数。代码和基准发布在code连接

1. Introduction

最近几年，在物体检测数据集的多样性和可用性的推动下，物体检测有了非常明显的发展【11,44,2,36,13,3】，e.g.PASCAL VOC【6】,COCO【27】，KITTI【9】，WiderFace【58】，etc。但是，现在的检测器通常是针对单个领域的，e.g. 在单个数据集上进行训练和测试。这部分是因为物体检测数据集是多样的，且在它们之间有一个很重要的区域转移。如Figure 1 所示，检测任务可以根据类别(human face ,horse,medical lesion,etc.)不同而不同，相机的观察点（images taken from aircrafts,autonomous vehicles,etc.），图片的类型(comic，clipart，watercolor，medical)，etc。通常，高检测的性能需要针对目标数据集的特定检测器。
在这里插入图片描述
这对实际应用提出了一个重要的问题，通常并不局限于Figure 1 中的一个单一的领域。因此，需要能够检测目标的系统，而不管图像收集的领域是什么。一个简单的解决方法是去设计一个针对每一个感兴趣领域的单一的检测器，e.g. 在 $D$ datasets 上训练 $D$ detectors 。在每一个时间点加载针对感兴趣区域的特定检测器。但是，这是不切实际的，有两个原因。首先，在大多数涉及自主系统的应用程序中，感兴趣的领域可以频繁地更改，而且不一定是预先知道的。第二，模型的大小随着domains $D$ 的数量线性增加。general AI是最近的一个趋势，它要求用一个单一的通用的模型来解决多个任务【21,25,62】,或者是在多个领域的相同任务【40,1】。然而，现有的研究大多针对图像分类，很少针对目标检测问题。事实上，现在的检测器是一个复杂的系统，它由backbone network，proposal generator，bounding box regrssor,classifier，etc组成，通用的物体检测的设计与通用的图片分类相比有更多的挑战。
在这里插入图片描述
在这项工作中，我们考虑了用于操作多个领域的物体检测器的设计，我们首先建立一个新的通用目标检测的标准，称之为UODB，由11个不同的物体检测数据集组成(see Figure 1)。这对于多域识别来说，比Decathlon【40】基准测试具有更大的挑战性。据我们所知，我们是第一个运行深度学习实现通用物体检测的。我们希望这一新的基准能够激励这个领域更好的发展。我们在Figure 2 中展示了我们机构的数量，来强调通用/多领域检测的问题。
在Figure 2中，左侧的两个架构是多领域检测器，它们需要感兴趣区域的先验知识。右侧的两个架构是通用检测器，不需要这些知识。当应用在一个未知的领域的时候，多领域检测器不得不在重设特定领域的参数，来重复推理的过程，而通用检测器只需要进行一次推理。Figure 2(a)中的检测器是一系列的特定领域的检测器，不共享参数和计算。多领域学习(MDL)【20,35,24,59,19,5】改善了这个，通过多领域的参数共享和增加小的特定领域的层。在【40,1】中，庞大的卷积层与轻量级的领域特定的适应层共享和互补。受到这些的鼓励，我们提出了一个轻量级的用于检测的适应器，它依赖于【15】中的squeeze and excitation(SE)机制，命名为SE adapters。这导致了Figure 2 (b)中的多域检测器，其中在整个网络中引入了特定领域的SE适配器来补偿域移位。在UODB中，这个检测器比Figure 2(a)表现更好，而且以少于5倍的参数。
与之相比，Figure 2©中的通用检测器跨域共享全部的参数/计算(非其它层的输出)。它由一个始终处于活跃状态的单一网络组成。在参数共享方面，这是一种最有效的解决方式，但是对于不进行不同的区域移动的单个模型来说，它是困难的。因此，这个解决方案没有Figure 2(b)中的多域检测器性能好。为了克服这个问题，我们提出了 Figure 2 (d)中的 $d o m a i n - a t t e n t i v e u n i v e r s a l d e t e c t o r$ 。它利用了一个新颖的领域关注(DA)模块，首先添加一组新的通用SE适配器(一直处于活动状态)，和一个基于特征的注意力机制来实现区域敏感性。该模块通过通用SE adapter bank将网络激活分配到不同的域，并通过域注意力机制对它们的响应进行软处理。这能够使适应器在私有领域专业化。由于流程是数据驱动的，所以域的数量不必与数据集的数量匹配，而数据集可以跨多个域。这允许网络利用跨域的共享知识，而这在通用的单域检测器中是不可用的。在新建立的UODB上，我们的实验表明这种参数/计算共享的数据驱动形式比Figure 2 中其余的体系结构支持更好的多域检测性能。

2. Related Work

Object Detection： 最近几年，R-CNN【12】、Fast R-CNN【11】、Faster R-CNN 这些two stage的检测框架取得了很大的成功。许多的工作都是在他们的基础上进行扩展。例如，MS-CNN【2】和FPN【26】建立了一个特征金字塔去有效的检测多尺度的物体；R-FCN提出了一个position-sensitive Pooling来实现加速；Cascade R-CNN针对高质量的目标检测引入了多级串联。与此同时，single-stage目标检测，像YOLO【42】和SSD【29】，因为他们高性能和快速的平衡。但是，如果不进行调优，它们中没有任何一个可以在不调优的情况下，在多个数据集上达到很好的性能。在pre-deep learning 时代，提出了一种通用的DPM【8】检测器，通过向DPM中添加数据集特定的偏差。但是这个解决方法是有局限性的，DPM不能与深度学习检测器相比较。
Multi-Task Learning： Multi-task learning (MTL)研究如何在一个输入域的情况下，联合学习多个任何，各种通过跨任务的信息共享的多任务网络【25, 62, 13, 28, 50, 63】已经被提出用于联合解决任务，如目标识别、目标检测、分割、边缘检测、人体姿态、depth、动作识别等。但是，信息共享并不总是有利的，有的时候反而会损害性能【7,22】。为了解决这个问题，【32】提出了一种cross-stitch unit，它组合了不同类型的任务，从而消除了在每个任务的基础上搜索多个架构的需求。【62】研究了多个任务的共同结构和关系。
Multi-Domain Learning/Adaptation： Multi-domain learning(MDL)解决了对多个领域的表示学习问题，已知的先验【20,36】。它使用跨域和特定域共享参数的联合参数。后者是适应参数，其灵感来自于领域适应方面的著作【38,30,46,31】，从源域学习的模型适应于目标域。【1】通过简单地向共享网络中添加领域特定的BN层证明了多域学习的可行性。【40】用剩余的适配器学习多个视觉领域，而【41】则对有效参数化进行了实证研究。但是，由于检测器训练的局限性，他们建立在BN layer上，并不适合检测。我们提出了一个替代SE的adapters来解决这个问题，它受到了“Squeeze-and-Excitation”【15】的激励。
Attention Module：【49】提出了一种机器翻译的自注意力模型，【51】提出了一种基于时空依赖/注意机制的视频分类的非本地网络。【15】针对channel关系，引入SE模块自适应地重新校准信道特征响应，在ImageNet recognition上取得了良好效果。在这项工作中，为通用目标检测领域更有挑战性的问题，我们引入了一个领域注意模块，它的灵感来自于SE，使数据驱动的领域分配的网络激活。

3. Multi-domain Object Detection

多领域目标检测的任务是在多个domains中检测目标。

3.1. Universal Object Detection Benchmark

为训练和评估通用/多领域目标检测系统，我们用11个数据集：Pascal VOC 【6】,WiderFace 【58】, KITTI 【9】, LISA 【33】, DOTA 【53】, COCO
【27】, Watercolor 【17】, Clipart 【17】, Comic 【17】, Kitchen【10】and DeepLesions 【55】.，建立了一个新的通用的目标检测基准(UODB)。这个集合包括流行的VOC【6】和COCO【27】，有日常物体的图片组成，e.g. bikes, humans, animals, etc. 20个VOC类在跨域【17】上复制，包含水彩、剪贴画、漫画三大类，对象分别以水彩、剪贴画、漫画风格呈现。Kitchen【10】由常见的厨房物品组成，通过手持Kinect收集，而WiderFace【58】则包含了通过网络收集的人脸。KITTI【9】和LISA【33】描述了交通场景，由安装在移动车辆上的摄像头拍摄。KITTI涵盖了车辆、行人和自行车的类别，而LISA则由交通标志组成。DOTA【53】是一个监督类型的数据集，包含由航空照相机拍摄的物体，如车辆、飞机、轮船、港口等。最后，DeepLesion【55】是一个医学CT图像上的病变数据集。每个数据集的典型示例如Figure 1所示。表1总结了更多的细节。总的来说，UODB在类别、摄像机视图、图像样式等方面涵盖了广泛的变化，因此为通用/多域对象检测的评估建立了一个良好的配件。

3.2. Single-domain Detector Bank

Faster R-CNN【44】是本项工作中所有检测器的baseline architecture。作为一个单一领域的目标检测器，Faster R-CNN 是two stages 的方法，首先，一个阶段是region proposal network(RPN)产生初步的猜测类别的检测假设。第二阶段使用感兴趣区域检测网络处理这些数据，以输出最终的检测结果。
正如Figure 2(a)描述的那样，对于多领域检测最好的解决的方式是去在每个数据集上使用一个单独的检测器。我们使用这个检测器作为多领域检测的baseline。这个解决方案代价是最大的，因为它意味着要复制所有检测器的所有的参数。Figure3 显示了对应数据集上11个检测器卷积激活的统计量(均值和方差)。可以做一些观察。首先，这些统计数据在不同的数据集之间偏差很大。虽然VOC和COCO的活化分布相似，但DOTA、Deeplesion和CrossDomain具有相对不同的分布。其次，不同网络层的统计数据不同。早期的层比后面的层有更明显的差异，它们更负责校正域的偏移，具有比后面的层更明显的差异。这倾向于支持输出层。它们负责将图像分配到不同的类别，当然也有所不同。有趣的是，这些行为也适应于RPN层，即使它们是类别无关的。第三，许多层跨数据集有相似的统计。对于中间层尤其如此，这表明至少在一些域上它们能被共享。
在这里插入图片描述

3.3.Adaptive Multi-domain Detector

受Figure 3的启发，我们一个适应多领域的检测器，如Figure 2(b)所示。在这个模型中，输出和RPN层是特定域的。网络的剩余部分，e.g. 所有的卷积层是共享的。但是，为了去适应新的damains，我们引入了一些附加的domain-specific layers，这才MDL【40,1】很普遍。这些额外的层应该1）足够的强大以抵消领域的缺失；2）尽量减少参数和计算。【40,1】中的适应层广泛的依赖BN。这对检测器来说是不可行的，BN层必须被冻结，因为检测器的训练允许small batch size。
我们对Figure 4(a)中的squeeze-and-excitation(SE) module【15】进行了实验。这里有几个原因。首先，众所周知，在哺乳动物的视觉中，基于特征的注意力是一种使感知适应不同任务和环境的机制【64,37,52,18,60】。因此，对于domain adaptation来说，考虑基于特征的注意力机制看起来是很自然的。其次，SE是一个解释通道的相关性来调节通道相应。这能够被看做是基于特征的注意力机制，第三，SE module 使SENet在ImageNet上实现了最先进的分类。最后，它是一个轻量级的模型，即使添加到ResNet【14】中每一个剩余块，它也仅仅是增加了10%的参数。这与【40】讲的BN-based adapters非常的接近。基于这些原因，我们引入了SE module作为原子适应单元，用于构建本工作中提出的所有域自适应检测器，称它为SE adapter。
在这里插入图片描述

3.4. SE Adapters

SE adapter 由Figure 4(a)中的操作序列组成：a global pooling layer,a fully connected(FC) layer,a ReLU layer,and a second FC layer, 执行计算
在这里插入图片描述
$F_{avg}$ 是一个全局的平均池化操作， $F_{SE}$ 是一个FC+ReLu+FC layer的结合。在Figure 4中，通道维度缩小因子 $r$ ，在我们的实验中被设置为16。为了能进行多领域的物体检测，SE adapter 使用了Figure 4(b)的architecture，称之为SE adapter bank。这包括为每个域添加一个SE adapter 分支和一个domain-switch，后者允许选择与感兴趣的域相关联的SE适配器。注意到，此体系结构假设这个域是先验已知的。它产生了Figure 2(b)中的多域检测器，与Figure 2（a）相比较，这个模型小了5倍，在11个数据集上获得了更好的总体性能。

4. Universal Object detection

前一节的检测器需要对感兴趣的领域有先验知识。这对于机器人或自动驾驶汽车等自动系统来说是不可取的，因为在这些系统中，确定领域是需要解决的问题的一部分。在这一节中，我们考虑universal detectors的设计，它消除了这个问题。

4.1. UNiversal Detector

如Figure 2 ©所示，对于universal detection来说，最简单的方法就是所有的任务共享一个检测器。注意，对于这个检测器，根据检测问题的定义，输出层也必须是特定于任务的。这不是问题，因为任务(即系统试图检测的类)是已知的。普遍性是指探测器处理的输入图像的域，在Figure 2©中是不需要知道的。通用性之外，在这项工作中，完全共享检测器是所有检测器中效率最高的，因为它没有特定领域的参数。另一方面，通过在所有域中强制使用相同的表示集，处理Figure 3 的统计变化的灵活性很小。在我们的实验中，这种检测器的性能通常低于Figure 2 (a)和(b)中的多域检测器。
在这里插入图片描述

4.2. Domain-attentive Universal Detector

理性情况下，一个通用的检测器应该有一些domain 敏感性，能够去适应不同的domains。从Figure 3 中，我们也发现了使用task-specific RPN layers的好处。虽然这与多域检测有很多的相同之处，但是有两个主要的区别。首先，必须自动推断域。其次，不需要约束域和任务，例如，Figure 1的traffic task 在一个通用的视觉域场景上进行操作，“traffic scence”，由于天气条件(sunny vs rainy)，环境(city vs rural)等，它能够有许多的sub-domains。根据特定的操作条件，可能必须在多个域中解决多个任务。事实上，对于域来说，没有一个清晰的定义，i.e. 他们是数据引导的。在这种情况下，不需要要求每个检测器在单个域上运行，soft domain-assignment更有意义。考虑到这一切，domain adaptation仍然可以应用Figure 4 (a)中的SE adapter，Figure 4 (b)中强制网络完全关注单个域的硬注意机制可能不是最优的。为了解决这个局限性，我们提出了Figure 5 中的domain adaptation(DA) module。它有两部分，一个通用的SE adapter bank 和一个domain attention 机制，接下来我们将进行讨论。

4.3. Universal SE Adapter Bank

在Figure 5中，通用的SE(USE)Adapter Bank是一个与Figure4 (b)相似的SE adapter bank，主要的区别是没有域的切换，i.e. adapter bank 是通用的。这是通过连接各个域适配器的输出来实现的，以形成一个通用表示空间。
在这里插入图片描述
$N$ 是adapters的数量， $X_{SE}^i$ 是每一个adapter输出的数量，(1)中所示。注意，N不一定与检测任务的数量相同。USE adapter可以看作是信号处理中常用的滤波器组的非线性泛化【48】。每个分支(非线性)沿着与特定域的统计信息匹配的子空间投影输入。然后，注意力组件产生一组领域敏感的权重，用于以数据驱动的方式组合这些预测。在这种情况下，不需要提前知道操作域。事实上，可能没有一个单一域，因为一个输入图像可以激发多个域SE适配器分支。

4.4. Domain Attention

Figure 5 中的注意力部分产生了一组domain-sensitive 的权重，用于组合SE bank的预测。受到SE module的启发，the domain attention component 首先在输入的feature map 上应用了一个global pooling ，去删除空间维度，然后是一个softmax层(linear layer + softmax function)
在这里插入图片描述
$W_{DA} \in R^{N\times C}$ 是softmax layer 的一个权重矩阵。然后使用张量 $S_{DA}$ 来衡量USE bank的输出 $X_{USE}$ ，从而产生一个域自适应响应的张量。

正如【15】中的SE module，最后使用 $X_{DA}$ 来channel-wise rescale 激活 $\in R^{C\times H \times W}$ 来适应。
在这里插入图片描述
$F_{scale}(.)$ 应用了一个channel-wise multiplication， $σ$ 是一个sigmoid function。

通过这种方式，USE bank 捕获所有数据集所跨越的域的特征子空间，DA机制soft-outes USE projections。这两种操作都是数据驱动的，并且不需要域的先验知识。与Figure 4(b) 中的注意力机制不同，这个DA module 可以跨域共享信息，从而实现更有效的表示。在我们的实验中，domain-attentive universal detector 比Figure 2中其他的detector 性能要好。

5.Experiments

在我们的实验中，我们使用Pytorch版本的在ImageNet上预训练的SE-ResNet-50【15】/ResNet50【14】的Faster R-CNN，作为所有detector的backbone。在一个8 synchronized GPUs上训练，以0.01训练10个epochs，以0.001训练另外的2个epochs，每个迭代包含两张图片。批处理的所有样本都来自单个(随机采样)数据集，在每个epoch中，每个数据集的所有样本都只处理一次。和通常的检测一样，第一个卷积层，第一个残差块和所有的BN在训练的过程中都被冻结。除非特别提到，这些设置用在所有的实验当中。多域和通用检测器在所有的domains上同时地训练。
Faster R-CNN有许多的超参数。在文献中，探测器是在单个域中测试的，为了获得最佳性能，它们被调优到目标数据集。这是困难的，而且是非常无趣的，在现在的11个数据集上完成，除非这对性能至关重要，而且相对容易做到，e.g. the choice of anchors. 主要的特定数据集超参数容如Table 1所示。

5.1. Datasets and Evaluation

我们的实验使用Section 3.1引入的新的UODB基准。对于Watercolor【17】，Clipart【17】，Comic【17】，Kitchen【10】和DeepLesion【55】，我们在官方训练集上进行训练，并在测试集上进行测试。对于Pascal VOC【6】，我们在VOC2007和VOC2012训练集上训练，在VOC2007的测试集上进行测试。对于WiderFace【58】，我们在训练集上训练，在验证集上进行测试。对于KITTI【9】，我们train/val在测试集上，最后的结果在测试集上。对于LISA【33】，我们在训练集上训练，在验证集上测试。对于DOTA【53】，我们遵循【55】的预处理，在训练集上训练，在验证集上测试。对于MS-COCO【27】，我们在COCO2014 valminusminival上训练，在minival上测试，缩短实验的周期。
所有的检测器在每个数据集上独立的进行评估。Pascal VOC mean average precision(mAP) 用作评估在所有的例子中。使用average mAps作为universal/Multi-domain detection性能的衡量。使用每个数据集的官方评估工具对领域关注通用检测器进行评估，并与文献进行比较。
在这里插入图片描述

5.2. Single-domain Detection

Table 1展示了Figure 2(a) 上的single-domain detectors bank在所有数据集上的训练结果。我们用SE-ResNet-50的VOC的baseline是78.5，要比Faster R-CNN的性能要好【45，14】(76.4 mAP for ResNet-101)。表中的其他条目与文献无法相比，文献中对不同的数据集使用不同的评估指标/工具。检测器组是多域检测的strong baseline(average mAp is 59.4)。

5.3. Multi-domain Detection

Table 2比较了Figure 2(a)中所有架构的多域对象检测性能。为了简单，在这部分只使用了5个数据集(VOC,KITTI,WiderFace,LISA and Kitchen)。从表中可以看出，3.3节中的adaptive multi-domain detector (adaptive)是轻量级的，在5个数据集上相比于Faster R-CNN只增加了11M的参数。然而，它比许多更expensive的single-domain detector bank性能高0.7个点。注意到，后者是一个strong baseline，显示多域检测器可以击败用一小部分的计算的单独训练的模型。Table 2也展示了提出的SE适配器显著优于【1】的BN适配器(BNA)和residual adapter(RA)或【40】,先前建议的分类。鉴于上面所讨论的BN作为对象检测的自适应机制的不足，这并不奇怪。
Figure 2©的通用检测模型更加的有效，考虑领域特定的RPN和输出层，仅仅增加了0.5M的参数相比于Faster R-CNN。但是，它的性能(“universal” in Table 2)远远的弱于自适应的Multi-domain 通用检测器(1.7 points)。最后，domain-attentive universal detector(“universal + DA”)有最好的性能。大约%7的参数的增加在每一个domain,i.e.与Multi-domain detector相比，它超过了single-domain bank baseline 1.6 point。去评估Figure 5(b)中data-driven domain attention 机制的重要性，在训练和推断期间，我们修正了软域分配，简单地平均SE适配器响应。这(“universal + DA”)使性能下降了0.5point。最后，Table 2 展示了当domain是未知的时候，所有方法在5个数据集上的相对实时的结果。可以看到“universal + DA” 比Multi-domain detectors快了接近4倍(“single-domain” and “adaptive”)，仅仅比“universal”慢了1.33倍。

5.4. Effect of the number of SE adpters

对于Figure 5 (b)中的USE bank来说，SE adapter的数量N不必与detection任务相匹配。Table 4简述了domain attentive 通用检测器的性能如何依赖于N。为了简单起见，我们使用了5个数据集在这次的实验中，正如我们在Table 4所看到的那样，更多的SE adapters并不总是带来更好的性能。通常来说，在到达7个adapter之前，性能会伴随着adapter的数量上升，添加9个adapter得到的性能和5个相似，而且增加了很多的参数量。另一方面，参数的数量随着adapter的数量线性的增加。在这些实验中，性能和参数的最好的平衡在5个adapter。这表明，虽然一个好的经验法则是去使用“as many adapters as domains"，当复杂性增加的时候，可以提供更少的参数。

5.5 Beneficial/harmful relations among 3 domains

因为数据集的底层属性是未知的，知道那个数据集是有益的，那个是没有的，是非常困难的。例如，VOC和COCO两者十分的相似，所以我们能很清楚的知道COCO对VOC是有益的。但是VOC和DeepLesion是怎么样的呢？考虑到它们之间的差异，它们可能会相互伤害(web image vs medical CT image).在Table 5中展示了一些控制实验，它表明了domain之间的 beneficial/harmful relation，在KITTI和VOC中经常与第三个数据集一起使用来进行控制。正如预期的那样，DeepLesion对于改善KITTI和VOC有最小的益处，有趣的是，LISA对KITTI和VOC的益处最大。

5.6 Results on the benchmark

Table 3 展示了full benchmark的结果。设置如上所示，但是在前10个epoch中我们使用0.1的learning rate，然后使用0.01的learning rate在后面的4个epoch中，每一次处理2 images。对于没有我们提出的模块的通用检测器来说，用0.1的学习率训练，即使只训练一个1epoch，也总是会得到一个大的损失，因此，通用检测器的性能与单域检测器组相当，参数减少了10倍。domain-attentive universal detector(“universal + DA”)提升了baseline的性能4.4个point,参数下降了5倍。它得到了一个巨大的性能提上(>5 points)在DeepLesion，Comic和Clipart上面。这是因为Comic/Clipart包含underpopulated classes，可以从其他domain的信息中收益。其他数据集的医学图像和RGB图像有用的domain shift,使DeepLesion的收获十分的有趣。VOC，KITTI，Kitchen，WiderFace和WaterColor的收益的是轻微的(1~ 5 points)，COCO，LISA和DOTA是没有什么收益的。与之相反，对于universal detector来说，联合训练不是有益的。这表示了对于通用检测的domain sensitively的重要性。
在这里插入图片描述
去研究Figure 5(b)中的domain attention module 学到了什么，我们在Figure 6 中展示了对每个数据集的soft assignment，平均它的验证集。只显示了第四和第五 residual stages 的最开始和最后的block。事实表明，一些数据集，例如VOC和COCO有非常相似的分布，说明有大量的领域重叠。另一方面，DOTA和DeepLesion与其他的分布十分的不同。例如，在block"DA_4_1"，DeepLesion完全的占据一个域。这些观察结果与Figure3一致，表明所提议的DA module能够学习domain-specific的知识。
比较每个剩余阶段的第一个和最后一个块，例如“DA_4_1”和“DA_4_6”，可以发现后者比前者对域的敏感性要低得多，这表明它们可以变得通用。为了验证这一假设，我们对11个数据集训练了一个只有6个SE适配器的模型，并且只在第一和中间块中，如“DA_4_1”和“DA_4_3”，其他所有块只会添加1个SE适配器，没有域分配模块。该模型“universal + DA*”比“universal + DA”11个适配器的检测器参数少得多，达到了最好的性能。它比single domain baseline 高出4.5个百分点。我们还训练了一个有8个SE适配器的模型，再增加2个适配器将会再增加0.3个点，比单域基线多4.8个点。

5.7. Offical evaluation

因为，就我们所知，这是第一次在11个数据集上探索通用/多域对象检测，没有直接比较的文献。我们将Table 3中的“universal+DA*”检测器与使用针对每个数据集的官方评估的文献进行了比较。这是一个不公平的比较，因为通用检测器必须记住11个任务。所有的单域检测器都将使用SE-ResNet50作为backbone。在VOC上，我们训练了两个模型，with/without COCO。结果如Table 6(a)所示，所有的方法在Pascal VOC07+12 trainval上训练。注意到我们Faster R-CNN的baseline(SE-ResNet-50 backbone)比【14】(ResNet-101)要强。添加universal domain adapters 比baseline 提升了1.1的points。添加COCO额外增加了3.1 points。注意，1)这种通用训练不同于【45】的训练方案(针对COCO进行训练，然后在VOC上进行finetined)，最终的模型只针对VOC进行优化；2)仅使用COCO2014 valminusminival的35k图像。
baseline 使用的是Faster R-CNN，在VOC上部署，最小的domain-specific changes，e.g. Table 1。Table 6表示，在KITTI数据集上的performed weakly。但是，增加adapters。能够得到6.4 point(Moderate setting)。这相当于在KITTI上显式优化检测器e.g.MS-CNN【2】和F-PointNet【39】。对于WiderFace，有足够训练的训练的face instance，共享知识的收益四smaller(see Table 6(b))。另一方方面，在DeepLesion和CrossDomain(Clipart,Comic,Watercolor)，对应Table 6c和6d，domain attentive universal detector显著的优于state-of-the-art。虽然DeepLesion包含了超过33k的图像，但大部分都只包含了一个病例，这将使探测器无法得到足够的训练。对于Cross-domain数据集，它们只包含几千个样本。当对如此小的数据集进行微调时，Single-domain detector很容易过拟合。与其他数据集特别是与跨域数据集共享某些类别的VOC和MS-COCO进行联合训练，将大大有利于跨域数据集的表示学习过程，并可缓解过拟合问题。总的来说，这些结果表明，一个单一的探测器，运行在11个数据集，在highly researched的数据集上，如VOC或KITTI的单域探测器是有竞争力的，并大大优于在较少探索的领域的state-of-the-art。这是通过相对较小的参数增加实现的，远远小于部署11个单一任务检测器所需的参数。

6.Conclusion

我们研究了通用/多域对象检测中尚未探索和具有挑战性的问题。我们提出了一种不需要先验领域知识的通用检测器，它由一个活动于所有任务的单一网络组成。该检测器通过一个新的数据驱动的域适应模块实现了域敏感性，并在一个新建立的基准上表现出了优于多个通用/多域检测器的性能，甚至针对单个任务优化了单个检测器。

WangKingJ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Towards Universal Object Detection by Domain Attention翻译

论文链接Abstract 尽管在视觉识别的通用表示方面的工作越来越多，但很少有人涉及到对象检测。在这篇文章中，我们开发了一个有效且高效的通用对象检测系统，它能够在各种图像领域工作，从人脸和交通标志到医学CT图片。与多领域模型不同，这个通用的模型不需要事先了解感兴趣的区域。它是通过引入一个新的适应层，基于挤压和激励原理，以及一个新的领域关注机制来实现的。在提出的通用检测器中，所有的参数和计算都是...
复制链接

扫一扫