Open Set Domain Adaptation 开放集域适应
摘要
当训练和测试数据属于不同的域时,对象分类器的准确性将大大降低。因此,最近几年提出了几种算法,以减少数据集之间的所谓域转移。但是,所有适用于域适应的评估协议都描述了一个封闭集识别任务,其中两个域 (即源域和目标域) 都包含完全相同的对象类。在这项工作中,我们还将探索开放集中的域适应领域,这是一种更为现实的场景,其中在源数据和目标数据之间仅共享少数几个相关的类。因此,我们提出了一种适用于封闭集和开放集场景的方法。该方法通过共同解决分配问题来学习从源到目标域的映射,该分配问题标记了可能属于源数据集中存在的相关类别的那些目标实例。全面的评估表明,我们的方法优于最新技术。
1. 介绍
对于许多应用程序来说,由于获取带注释的训练数据的高昂成本,训练数据是稀缺的。尽管有大量公开的带注释的图像数据集,但从网络收集的图像通常不同于与特定应用程序相关的图像类型。根据应用程序、传感器的类型或传感器的角度,整个捕获的场景可能与网络上的图片有很大不同。因此,两种类型的图像位于两个不同的域中,即源域和目标域。为了使用源域中的带注释的图像对目标域中的图像进行分类,可以将源域和目标域对齐。在我们的例子中,我们将源域的特征空间映射到目标域的特征空间。然后可以在源域的转换数据上学习任何分类器,以对目标域中的图像进行分类。该过程称为域适应,并根据目标图像是未标记还是部分标记而进一步分为无监督和半监督方法。
除了我们在过去几年中在域适应方面取得的进展[34,19,18,9,21,13,31,15]外,到目前为止,还使用一种设置来评估这些方法,其中源域和目标域的图像来自同一组类别,此设置可以称为封闭集域适应,如图1(a)所示。此类封闭集协议的一个示例是流行的Office数据集[34]。然而,假设目标域仅包含源域类别的图像是不现实的。对于大多数应用程序,目标域中的数据集包含许多图像,并且只有一小部分可能属于相关的类别。因此,我们将开放集的概念[28,37,36]引入域适应问题,并提出开放集域适应,它避免了封闭集域适应的不切实际的假设。封闭集和开放集域适应之间的差异如图1所示。
图1:(a) 标准域适应基准假定源域和目标域仅包含同一组对象类的图像。这被称为封闭集域适应,因为它不包括未知类或另一个域中不存在的类的图像。 (b) 我们建议开放集域适应。在此设置中,源域和目标域都包含不属于相关类别的图像。此外,目标域包含与源域中的任何图像都不相关的图像,反之亦然。
作为第二个贡献,我们提出了一种适用于封闭集和开放集的域适应方法。为此,我们将源域的特征空间映射到目标域。通过将目标域中的图像分配给源域的某些类别来估计映射。分配问题由一个二元线性程序定义,该程序还包括一个隐式异常值处理,该处理将丢弃与源域中任何图像都不相关的图像。该方法的概述在图2中给出。该方法可以应用于无监督或半监督设置,其中目标域中的一些图像用已知类别进行注释。
我们对源域和目标域的24种组合 (包括Office数据集[34]和跨数据集分析[44]) 与最新方法进行了全面的评估和比较。我们重新审视了这些评估数据集,并提出了一种新的开放集协议,用于无监督和半监督的域适应,其中我们的方法在所有设置下均能实现最新的结果。
2. 相关工作
随着Saenko等人[34]发布对象分类背景下的领域适应性基准测试,对研究用于计算机视觉问题的领域适应技术的兴趣日益浓厚。Golapan等人[19]和Gong等人[18]首次提出了有关用于对象分类的无监督域适应的相关工作,他们利用Grassmanian流形的性质提出了在源样本和目标样本的公共子空间中进行比对的建议。将源域和目标域联合转换为一个共同的低维空间,还需要对具有正交性约束的转换矩阵进行共轭梯度最小化[3],并通过字典学习来找到子空间插值[32,38,47]。Sun等人[40,39]提出了一种基于二阶统计量的非常有效的解决方案,以将源域与目标域对齐。同样,Csurka等人[10]对源和目标样本进行联合去噪,重建数据时不会出现部分随机损坏。共享域之间关联的某些相似性,Gong等人[17]最小化了两个数据集的最大平均差异 (MMD)[20]。他们将实例分配给潜在域,并通过轻松的二进制优化来解决。Hsu等人[31]使用类似的想法,允许将实例链接到所有其他样本。
半监督域适应方法利用已知少数目标样本的类标签。Aytar等人[2]提出了一种迁移学习公式来规范目标分类器的训练。利用跨域的成对约束,Saenko等人[34]和Kulis等人[27]在训练目标分类器的同时,学习一种转换,以最大程度地减小域转移的影响。遵循相同的思想,Hoffman等人[22]考虑了一种迭代过程,以交替地最小化分类权重和转换矩阵。在不同的背景下,[7]提出了一种弱监督的方法,通过合成图像来细化真实图像的粗糙视点注释。与半监督方法不同的是,视点细化的任务假定目标域中的所有图像都被标记,但没有达到所需的粒度。
在自然语言处理的背景下,早期的领域适应方法研究了选择每个领域的最相关信息的思想[5]。在两个领域中表现出以相同方式进行判别式学习的枢轴特征被选择来建模它们的相关性。Gong等人[16]提出了一种算法,该算法选择与目标域最相似分布的源样本的子集。Sangineto等人[35]提出了另一种处理实例选择的技术。他们在目标域的随机分区上训练弱分类器,并在源域中对其进行评估。然后选择性能最好的分类器。其他研究也利用了贪婪算法,迭代地将目标样本添加到训练过程中,同时删除最不相关的源样本[6,42]。
由于CNN特征显示出对域更改的鲁棒性[11],因此提出了几种基于CNN的域适应方法[39,31,45,48]。Chopra等人[9]通过学习中间特征编码器扩展了CNN与源图像和目标图像的联合训练,并将它们组合起来以训练一个深度回归器。还建议使用MMD距离作为正则化器,以共同学习源样本和目标样本的特征[14,46,29,30]。Ganin等人[13]在CNN之后添加了一个域分类器网络,以最大程度地减少域损失和分类损失。最近,Ghifary等人[15]结合了两种CNN模型,用于标记源数据分类和无监督目标数据重建。
标准对象分类任务忽略了没有任何对象类别表示的冒名顶替者