【全文翻译】Domain Adaptation by Class Centroid Matching and Local Manifold Self-Learning

本文提出了一种新的领域适应方法,称为CMMS,它通过类质心匹配和局部流形自学习来强调数据分布结构。方法首先使用K-means聚类获取目标数据的类质心,然后通过类质心匹配最小化源域和目标域之间的分布差异。同时,通过局部结构自学习策略捕获目标数据的局部流形结构。整个过程通过迭代优化算法进行,具有理论上的收敛性保证。此外,CMMS还可直接扩展到半监督场景。实验在五个基准数据集上验证了CMMS的优越性能,表明了其在无监督和半监督域适应中的优势。
摘要由CSDN通过智能技术生成

Abstract

    领域自适应已成为将知识从源领域转移到目标领域的一项基本技术。DA的关键问题是如何以适当的方式减少两个域之间的分布差异,以便可以对它们进行无差异的学习。与现有的独立对目标样本进行标签预测的方法不同,本文提出一种新颖的域自适应方法,该方法在两个域中的类质心的指导下为目标数据分配伪标签,从而使两者的数据分布结构可以强调源域和目标域。此外,为了更全面地探索目标数据的结构信息,我们进一步在建议中引入了局部连通性自学习策略,以自适应地捕获目标样本的固有局部流形结构。将上述类质心匹配和局部流形自学习集成到一个联合优化问题中,并设计了一种迭代优化算法以在理论上保证收敛。除了无监督域自适应以外,我们还以一种直接而又优雅的方式将我们的方法进一步扩展到半监督场景,包括同构和异构设置。在五个基准数据集上进行的大量实验以无监督和半监督的方式证明了我们的建议的显著优势。

1. Introduction

    在许多实际应用中,数据通常是在不同条件下收集的,因此很难满足被称为统计学习理论基础的相同概率分布假设。这种情况自然会导致一个关键问题,即在经过良好标注的源域上训练的分类器无法直接应用于相关但不同的目标域。为了克服这个问题,作为迁移学习的重要分支,人们已经为领域适应做出了巨大的努力[1]。到目前为止,领域适应已成为跨域知识发现的一项基本技术,并且已在各种任务中得到考虑,例如对象识别[2],[3],面部识别[4],[5]和行人重识别[6]。
由数据分布的结构信息的不了解导致的错误分类的一个示例,其中区分目标域中第i类的质心和源域中第j类的质心之间的距离
    域自适应的主要问题是如何减少源域和目标域之间分布的差异[7]。最近的大多数工作旨在寻找一个共同的特征空间,该特征空间将跨域的分布差异最小化[8],[9],[10],[11],[12]。为了实现这一目标,已经提出了各种度量来测量分布差异,其中最大均值差异(MMD)[13]可能是使用最广泛的度量。基于MMD的方法的典型过程在每次迭代中包括三个关键步骤:
1)将原始源数据和目标数据投影到公共特征空间;
2)在投影源域上训练标准的监督学习算法;
3)使用源分类器为目标数据分配伪标签

通常,此过程独立地对目标样本进行标签预测,忽略了两个域的数据分布结构,而这对于目标数据的伪标签分配至关重要。
    为了更清楚地说明这一点,图1是一个小示例。红线是在投影特征空间中的源数据上训练的判别超平面。如我们所见,由于两个域之间的分布差异,超平面倾向于对目标数据进行错误分类。在这种情况下,分类错误的样本将严重误导后续迭代中对公共特征空间的学习,并最终导致明显的性能下降。实际上,从两个域中样本分布的角度来看,目标域中的类质心可以很容易地与源域中它们对应的类质心匹配。受此见解的启发,在本文中,我们打算引入一种新颖的方法,该方法在两个域中的类质心的指导下将伪标签分配给目标样本,而不是单独标记目标样本,这样可以强调源领域和目标领域的数据分布结构。为了实现这个目标,要处理的第一个关键问题是在缺少标签的情况下如何确定目标域的类质心。对于这个问题,我们采用经典的K-means聚类算法[14],该算法已广泛用于将未标记的数据划分为几组,其中同一组中的相似样本可以由特定的聚类原型表示。直观地讲,通过K-means算法获得的聚类原型可以看作是目标域类质心的良好近似。获得目标数据的聚类原型后,可以将域自适应中的分布差异最小化问题重新表述为类质心匹配问题,可以通过最近邻搜索有效地解决该问题。
    显然,在目标数据的聚类原型学习过程中,聚类原型的质量对于我们方法的性能至关重要。实际上,已经表明,如果利用局部流形结构,则可以显着提高聚类性能[15],[16]。然而,大多数现有的流形学习方法高度依赖于内置在原始特征空间中的预定义相似度矩阵[17],[18],因此由于维数灾难而可能无法捕获高维数据的固有局部结构。为了解决这个问题,受最近提出的自适应邻居学习方法的启发[19],我们引入了一种局部结构自学习策略。具体来说,我们根据投影的低维特征空间而不是原始高维空间中的局部连通性来学习数据相似性矩阵,从而可以自适应地捕获目标数据的固有局部流形结构

我们提出的方法流程图。我们将域自适应问题重新定义为类质心匹配问题,从而可以利用数据分布的结构信息。对于目标数据,我们进一步介绍了局部流形自学习策略,以探索固有的局部连通性结构。黄色和蓝色管道分别指示目标域和源域的操作

    在以上分析的基础上,自然提出了一种新的领域自适应方法,该方法可以利用类质心匹配和局部流形自学习(CMMS)的结合来充分利用数据分布结构。值得注意的是,最近,由于在实践中可能会有一些标记的目标样本,因此解决半监督域自适应(SDA)问题的需求正在增长。[20], [21], [22], [23], [24]。尽管已经建立了无监督域自适应(UDA)方法,但大多数方法自然不能应用于半监督方案。令人兴奋的是,CMMS可以以直接却优雅的方式扩展到SDA,包括同构和异构设置。我们提出的CMMS的流程图如图2所示。本文的主要贡献概述如下:
•我们提出了一种新的领域自适应方法,称为CMMS,它可以通过联合类质心匹配和局部流形自学习来彻底探索数据分布的结构信息。
•我们提出了一种有效的优化算法,可以解决提案的目标功能,并具有理论上的收敛性保证。
•除了无监督域自适应以外,我们还将方法扩展到半监督场景,包括同构和异构设置。
•我们在五个基准数据集上对我们的方法进行了广泛的评估,这以无监督和半监督的方式验证了我们方法的优越性能。
    本文的其余部分安排如下。第二节介绍了一些相关文献。第三节介绍了我们提出的方法,优化算法,收敛性和复杂性分析。我们将在第四节中描述我们的半监督扩展。大量的实验结果显示在第五节中。最后,我们在第六节中总结了本文。

2. Related Work

A. Unsupervised Domain Adaptation

B. Semi-supervised Domain Adaptation

C. Local Manifold Learning

3. PROPOSED METHOD

    在本节中,我们首先介绍贯穿本文使用的符号和基本概念。然后,描述了我们的方法的细节。接下来,设计了一种有效的算法来解决我们建议的优化问题。最后,给出了优化算法的收敛性和复杂性分析。

A. Notations 符号

    域D包含特征空间χ和边际概率分布P(X),其中X∈χ。对于特定领域,任务T由标签空间Y和标签函数f(x)组成,用T = {Y,f(x)} [1]表示。为简单起见,我们分别使用下标s和t来描述源域和目标域。
    我们将源域数据表示为 D s D_s Ds = { X s , Y s X_s,Y_s XsYs} ={ ( x s i , y s i ) (x_{si},y_{si}) (xsi,ysi)} i = 1 n s ^{n_s}_{i=1} i=1ns,其中 x s i ∈ R m x_{si}∈R_m xsiRm是源样本, y s i ∈ R y_{si}∈R ysiR是相应的标签。类似地,我们将目标域数据表示为 D t D_t Dt= { X t X_t Xt} = { x t j x_{tj} xtj} j = 1 n t ^{n_t}_{j = 1} j=1nt,其中 x t j ∈ R m x_{tj}∈R_m xtjRm。为了清楚起见,我们在表I中显示了本文中使用的主要符号和相应的描述。
常用符号和说明

B. Problem Formulation 问题表述

    我们CMMS的核心思想在于通过两个域的类质心匹配以及对目标数据的局部流形结构自学习来强调数据分布结构。 CMMS的总体框架可以用以下公式表示:
在这里插入图片描述
第一项Ω(PF)用于匹配类质心。 Θ(PF G t G_t Gt)是投影空间中目标数据的聚类项。Ψ(PS)用于捕获数据结构信息。 Φ(P)是避免过拟合的正则项。超参数α,β和γ用于平衡不同项的影响。接下来,我们将详细介绍这些项目。
1)对目标数据进行聚类:在我们的CMMS中,我们借用聚类的思想来获得可以被视为伪类质心的聚类原型。在这种情况下,可以获取目标数据的样本分布结构信息。为了实现此目标,可以使用各种现有的聚类算法作为候选对象。在不失一般性的前提下,为简单起见,本文采用经典的K-means算法获得聚类原型。因此,我们有以下公式:
在这里插入图片描述
其中 P ∈ R m × d P∈R^{m×d} PRm×d为投影矩阵, F ∈ R d × C F∈R^{d×C} FRd×C是目标数据的聚类质心, G t ∈ R n t × C G_t∈R^{n_t×C} GtRnt×C是目标数据的聚类指标矩阵,如果 x t i x_{ti} xti的聚类标签为j,那么 ( G t ) i j (G_t)_{ij} (Gt)ij = 1,否则 ( G t ) i j (G_t)_{ij} (Gt)ij = 0。
2)两个域的类质心匹配:一旦获得了目标数据的聚类原型,我们就可以将域自适应中的分布差异最小化问题重新定义为类质心匹配问题。请注意,可以通过计算同一类别中样本特征的平均值来精确获取源数据的类别质心。在本文中,我们通过最近邻搜索解决了类质心匹配问题,因为它既简单又有效。具体来说,我们为每个目标聚类质心搜索最近的源类质心,并最小化每对类质心的距离之和。最后,将两个域的类质心匹配表示为:
在这里插入图片描述
其中 E s ∈ R n s × C E_s∈R^{n_s×C} EsRns×C是一个常数矩阵,用于计算投影空间中源数据的类质心,如果 y s i = j y_{si} = j ysi=j E i j = 1 / n s j E_{ij} = 1 / n^j_s Eij=1/nsj ,否则 E i j = 0 E_{ij} = 0 Eij=0
3)目标数据的局部流形结构自学习:在我们提出的CMMS中,目标样本的簇原型实际上是其对应类质心的近似值。因此,聚类原型的质量在我们的CMMS的最终性能中起着5个重要作用。现有工作已经证明,通过利用局部流形结构可以显著改善聚类的性能。然而,它们中的大多数高度依赖于原始特征空间中的预定义相邻矩阵,因此由于维数灾难而无法捕获高维数据的固有局部流形结构。对于这个问题,受近期工作的启发[19],我们建议在我们的CMMS中引入一种局部多方面的自学策略。代替在原始高维空间中预定义相邻矩阵,我们根据投影的低维空间中的局部连通性自适应地学习数据相似性,从而可以捕获目标数据的固有局部流形结构。局部流形自学习公式如下:
在这里插入图片描述
其中 S ∈ R n t × n t S∈R^{n_t×n_t} SRnt×nt是目标域中的邻接矩阵,而δ是超参数。 L t L_t Lt是由 L t = D − S L_t = D-S Lt=DS计算的对应图拉普拉斯矩阵,其中D是对角矩阵,每个元素 D i i = ∑ j ≠ i S i j D_{ii} = \sum_{j≠i}Sij Dii=j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值