前言
这一篇论文感觉十分偏理论,我感觉只是理解了个大概。
1.第一步是使用OSNN(开放集最近邻)算法对目标域样本进行标签预测。通过公式(12)得到一个优化后的分类器h。
2.计算矩阵L,W。L为拉普拉斯矩阵,可写成D − W, D为对角矩阵,Dii = j=1到 ns+nt 对Wij求和,W矩阵为样本相似度矩阵。
3.迭代过程。每一次迭代中,(1)计算MMD矩阵M;(2)通过式(21)计算 β ;(3)β的转置×K得到的结果为新一轮更新的目标域伪标签的值。
最终输出结果为目标域标签和更新后的分类器β的转置×K
Introduction
大多数现有算法只能处理无监督闭集域自适应(UCSDA),即假定源域和目标域共享相同的标签集。在本文中,我们的目标是一个更具挑战性但更现实的设置:无监督开放集域适应(UOSDA),其中目标域具有在源域中找不到的未知类。
开放集差:反映了目标分类器在未知类上的风险。
开放差分分布对齐(DAOD):基于正则化这个开放集的差分边界实现UOSDA.
现有的UDA被视为UCSDA,研究工作主要分为两类:
1)特征匹配,寻找一个新的特征空间来减小分布差异,其中两个域的边缘分布或条件分布[5]-[7]相似;
2)实例重加权,估计源域的权重,使分布差异最小化[8],[9]。
图2。UOSDA的目标:(a)给出原始源和目标样品。(b) UCSDA算法匹配源和目标样本,导致负迁移。因为未知的目标样本会干扰分布匹配。© UOSDA算法将已知目标样本划分为正确的已知类,并将未知目标样本识别为未知。
解决UOSDA问题的两大挑战:
第一个挑战是在目标领域没有足够的知识来对未知样本进行分类。那么这些样品应该如何标注呢?解决方案是在目标领域中挖掘更深层的信息,以划定已知类和未知类之间的边界。 UOSDA的第二个挑战是分布的差异。在整体分布匹配的情况下,未知目标样本不匹配;否则,就会发生负迁移。
UOSDA算法:
第一个提出的UOSDA算法是迭代赋值变换(ATI) [17],利用每个目标样本与每个源类中心的距离为L2,构造约束整数规划识别未知目标样本Su。然后学习线性映射,通过排除预测的未知目标样本Su来匹配源域和目标域。然而,ATI假设源域中包含不在目标域中的未知类的样本。
第一个提出的深度 UOSDA算法—— 开放集反向传播(OSBP)[18]而没有这种假设。它通过训练二元交叉熵损失和对抗网络来分离未知目标样本。
本文贡献:
设计了一个原则导向的UOSDA算法,称为开放差分分布对齐(DAOD)。该算法可以对目标未知样本进行准确分类,**利用最小化开集差将未知目标样本与样本分离,**同时最大限度地减小已知类的两个域之间的差异。DAOD通过同时优化结构风险函数[24]、联合分布对齐、流形正则化[25]和开集差来学习目标分类器。
为相似度评分建立阈值意味着从训练样本中移除距离较远的样本。开放集最近邻(OSNN)[36]通过将阈值与比率(比率即样本与该样本最相似的两个类别的相似性得分)进行比较来识别样本是否来自未知类别。
UOSDA的目的是找到一个目标分类器 ft: X→Yt,使得1) ft 将已知目标样本分类到正确的已知类别中。2) f t将未知目标样本归为未知。
Ys = {yc}C c=1, Yt = {yc}C+1 c=1,其中yc+1表示未知目标类,yc∈R(C+1)×1为onehot向量.
π t c代表第c类P(Yt = yc)的目标类先验概率。
P Xt|Ys表示已知类P(Xt |Yt∈Ys)的目标条件分布,可由
考虑一个具有评分函数假设空间 H 的多类分类任务:
输出hc(x)表示对标签yc预测的置信度,则h∈H在PX sY s和PX t Y t下的风险为:(设 l 为RC+1×RC+1→R+的对称损失函数)
已知目标域在和源域相同类别h∈H的偏风险为:
未知目标类别h∈H的偏风险为:
根据公式(2)——(4),得:
第c+1个种类在源域和目标域上的风险为:
proposed algorithm
定义6(开放集差):给定公式(6)中定义的风险Rs u,C+1(h)和Rt u,C+1 (h),开放集差为:
其中π t C+1是未知目标类的类先验概率。
*(重点)定理7:假设H具有一个温和条件,即常向量值函数 g:= yC+1∈H, 对于任意h∈H,有:
公式右边第三部分 上三角= min (h∈H) Rs(h) + Rt∗(h)。
附录中根据(5):
之后,我们可以检查一下
将(8)、(9)与(7)结合起来,有
开集差(未知类在目标分类器上的风险) 三角o是约束未知目标类上 h 的风险的关键项,因为
h在未知目标类别上的风险与开放集差 三角o 密切相关
当π t C+1 = 0时,定理7退化为闭集情形,理论界为[26]:
这是因为当π tC+1 = 0时,开集差为
开集差 上三角o由正项 R t u,C+1(h)和负项R s u,C+1(h)两部分组成。正项越大,意味着更多的目标样本被归类为未知样本。**负项用于防止源样本被归类为未知。**由式(10)可知,负项和距离差异共同阻止了所有目标样本被识别为未知类。
Rs(h)为经验源风险,Rt(h)为目标风险,右边第四项无底三角为min(h∈H) Rs(h) + Rt∗(h),经验开集差 三角o = (Rt u,C+1(h)/1−π t C+1)−Rsu,C+1(h),戴帽意思为经验风险。
具体算法实现:
定理7的重要性在于,它告诉我们三个项(即源风险、分布差异和开集差异)与开集域自适应的界之间的关系。
我们最初的重点是以下UOSDA的优化问题:
其中假设空间H被定义为函数空间{H = [h1,…, hC+1]T: hc∈Hk}和lambda、γ是两个自由超参数。
我们还为(11)中的优化问题增加了一个附加的条件分布差异。因此,新的问题就产生了:
原来的d l H(·,·)在新问题中被投影的MMD Dh,k(·,·)所取代.
此外,我们增加了流形正则化[25]来学习源域和目标域的几何结构。通过这种正则化,我们的算法可以在设置退化为封闭集域自适应(即没有未知类)时始终保持良好的性能。优化问题可以改写为:
其中α:= γ /(1−π t C+1), ρ和σ是三个自由超参数, TX表示未标记的目标样本,SX表示未标记的源样本, Mh(SX, TX)是流形正则化, ||h||2 k是h在Hk中的平方范数,以避免过拟合。
我们将展示如何使用给定的样本来制定式(12)。首先,根据表示定理,如果优化问题(12)有最小值 h*,可写成:
其中xi∈SX∪TX, βi∈R(C+1)×1为参数。
1)分布对齐
由于目标样本没有标签,我们无法直接计算:
因此,需要使用伪标签来帮助计算P X t |Ys和P X t |yc。
我们可以通过表示定理和核技巧计算(13)如下:
式中β = [β1,…,βns+nt]T ∈R(C+1)×(ns+nt), K为(ns+nt)×(ns+nt)核矩阵 [K(xi, x j)], xi, xj∈SX∪TX, M= μM0 +(1−μ)(求和c=1到CMc) 为MMD矩阵:
ns := |SX |, nt K := |TX,K |, ns c := |SX,c|, nt c := |TX,c|.
2) Manifold Regularization:
成对密切矩阵表示为:
其中sim(xi, xj)为相似度函数,如余弦相似度,Np(xi)表示点xi的p个最近邻的集合,p为自由参数。流形正则化可以计算如下:
其中,xi, xj∈SX∪TX, L为拉普拉斯矩阵,可写成D − W, D为对角矩阵,Dii = j=1到 ns+nt 对Wij求和。利用表示定理和核技巧,流形正则化Mh(SX, TX)可写成
3)Open Set Loss Function
设标签矩阵为Y ∈ R (C+1)×(ns+nt),
(戴帽)Yij较为特殊,当i=C+1并且xj属于源域类别时,(戴帽)Yij=1;否则等于0。
A为(ns + nt) × (ns + nt)的对角矩阵,当xi∈SX()时,Aii=(1/n s)(1/2),当xi∈TX时,Aii=(α/n t)(1/2);当xi∈SX(未标记的源样本)时,(戴帽)Aii=(1/n s)(1/2),当xi∈TX时,(戴帽)Aii=0。
Overall Reformulation
最后,根据式(14)、(15)、(19),将式(12)中的优化问题重新表述为:
Training
(20)式 L(β) 中有一项为负,通过求解方程(∂L(β)/∂β) = 0来计算优化器可能是不正确的,因为也许(∂L(β)/∂β) = 0求解的“最小化”是一个最大值。
下面定理10可用(∂L(β)/∂β) = 0来求解。
定理10:如果R s u,C+1(h)的系数γ小于1,且核k是普遍适用的,则(20)中定义的L(β)有唯一的最小值,可以写成:
在本文中,我们使用OSNN进行类验证-t (OSNN cv -t)[36]来帮助我们学习伪标签。我们从测试样本s中选择两个最近的邻居v, u。如果两个最近的邻居都有相同的标签yc, s就用标签yc分类。否则,假设||v - s||2≤||u - s||2,则计算出比值||v - s||2/||u - s||2。
如果比值小于或等于预定义的阈值 t, 0 < t < 1, s被归类为与v相同的标签,否则,s被识别为未知样本。
为了使伪标签更准确,我们使用JDA[6]提出的迭代伪标签细分策略。