《Aggregating Randomized Clustering-Promoting Invariant Projections for Domain Adaptation》学习
IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, VOL. 41, NO. 5, MAY 2019
文章目录
摘要
无监督域适应的目的是利用有标记的源数据和无标记的目标数据进行学习。以往的方法通过迭代寻找低维投影来提取不变特征,并通过在源数据上建立分类器来获得伪目标标签。但是,它们仅仅关注于最小化跨域分布散度,而忽略了域内结构,特别是对目标域。即使在预测之后,数据分布不平衡等可能的风险因素仍然可能阻碍目标标签推断的性能。
在本文中,我们提出了一种简单而有效的域不变投影集成方法来同时解决这两个问题。具体地说,我们通过一种新的放松域无关聚类促进词来寻求最优投影,该词共同弥合了跨域语义差距,并增加了两个域的类内紧性。
为了进一步增强目标标签推断,我们首先开发了一个“采样-融合”框架,在该框架下,基于各种随机耦合的域子集独立学习多个投影。
随后,利用聚合模型(如多数投票)来利用多个预测并对未标记的目标数据进行分类。在包括物体、人脸和数字图像在内的六种视觉基准上的广泛实验结果表明,所提出的方法比最先进的无监督域适应方法获得了显著的优势。
索引词-无监督域适应,域不变投影,类聚类,采样和融合
一、介绍
例如,要识别成人的面孔,同时利用一组从他们童年时期捕捉到的有标签的面孔图像,这是非常具有挑战性的。
当这一假设没有得到验证时,域漂移或协变量漂移(即条件分布相同时训练数据和测试数据的分布不相同)在很大程度上影响测试时的性能。
迁移学习,它试图探索隐藏在目标数据中的异构知识
无监督域适应(DA)是一种将同一任务从有监督源域转移到无监督目标域的方法,近年来在计算机视觉领域受到越来越多的关注。
为了处理协变量偏移,早期的域适应工作通过似然比估计计算每个样本属于源域或目标域的概率。
在双样本统计检验[14]中,最喜欢的实例重加权原则是最大均值差异(MMD)。
这种实例重加权策略是直观的,但往往与分类器训练过程分离。针对这一缺陷,Chu等人[3]提出对训练样本进行联合重权,学习分类器。
同时,Long等[9]学习了一个域不变投影,同时条件分布和边缘分布的分歧都最小。由于缺少标记的目标数据,对目标数据上的伪标签和投影函数进行交替优化。Baktashmotlagh等人[15]研究了MMD中的高斯核,并最小化了类内方差,从而同时鼓励在源域内聚类。
一般来说,弥合源和目标域之间的差距和保持标记源数据的鉴别能力是无监督数据同化方法的两个关键组成部分。伪标签被用来最小化经验条件分布差异(即类间均值的差异)。
我们研究了一种新的领域无关类聚类目标,该目标在理论上与分布散度和方差最小化项都涉及两个领域。为了说明目标聚类结构的必要性,我们还在图1中提供了一个简单的例子,其中类间均值的差异在两个子空间中都是最小的。
提出的目标进一步分解为三个项,即经验条件分布发散项和两个域内类聚类项。通过引入域内项的平衡参数,我们自然地得到了一个宽松的域无关类聚类目标。
显然,要推断出最优投影,我们仍然需要知道伪目标标签。因此,我们通过提出的目标共同学习域不变投影,并在循环中推断伪目标标签。在每次迭代中,通过在投影源数据上训练的分类器推断出伪标签。
除了域不变投影推理之外,如何标记目标数据也是无监督域适应的一个关键问题。然而,这一问题长期以来一直被忽视,分类器通常是在整个投影源数据上训练来对投影目标数据进行分类。
得益于多个特征表示的组合,以前的工作[4],[17]在域自适应方面取得了良好的性能。受这些方法和经典集成模型(如自举聚合(bagging)[18]的启发,我们进一步利用几个耦合的源-目标子域对来学习各种局部域不变投影函数。
为了进一步提高稳健性,我们还采用了随机森林[18]中的随机特征选择思想,该思想已被证明不太过拟合。因此,原始问题已被分布到许多小规模问题中,这大大降低了时间复杂度,对于具有大规模实例和高维特征的无监督DA任务也是理想的。
为了进一步提高性能,开发了图2中的“采样和融合”策略,以提高泛化能力。
特别是,为了推导每个跨域子集的域不变投影,我们得到了一个具有闭式解的广义特征值分解问题。为了在循环中标记目标数据,为了简单起见,我们在投影子空间上采用了最近邻(NN)分类器。最后,我们在融合步骤中提供了两种流行的策略,即特征级联和多数投票方案。总体而言,该问题在计算上也是高效的,并且对于大规模无监督域自适应是灵活的。本文的贡献总结如下。
- 为了弥补目标结构约束的不足,我们提出了一种新的目标函数,该目标函数从域无关类聚类(DICE)项放松,用于无监督域自适应。
最优投影和伪目标标签交替优化,在每次迭代中,通过求解广义特征值问题以闭合形式计算投影 - 集成策略首先用于无监督域自适应问题,其中我们通过随机选择两个域的实例和相同特征来构造各种域自适应任务,并推断相应的域不变投影,从而使集成方法在投影推理步骤中更快、更容易并行。
- 在多个基准数据集上的大量实验结果表明,所提出的方法的性能优于最新的无监督域自适应方法,并且集成方法总是优于其单投影方法,具有明显的优势。
特别是,在具有挑战性的交叉视图饼图数据库中,DICE将最佳精度从58.8%[19]、65.1%[20]提高到80.6%。当与深度功能结合时,DICE甚至可以与当前最先进的深度方法竞争。
二、之前的工作
在本节中,我们主要回顾了以前的无监督域自适应方法,并将其分为两大类:浅层方法(例如,实例重加权、特征增强和特征变换方法)和端到端深度自适应方法。
尽管域之间的分布不同,实例重加权方法通常假定相同的条件分布。利用最大熵密度估计来推断重采样权重[21],而[22]通过匹配再生核希尔伯特空间中的训练和测试分布特征均值,即最大平均差异(MMD),来估计重采样权重。除了优化权重外,[3]还学习分类器的最佳参数。
一种非常简单的方法[7]首先增强两个域的特征,然后在源域上采用经过训练的分类器来预测未知目标数据。[23]通过利用两个新提出的用于异构域自适应的特征映射函数扩展了[7]。此外,[2],[4]提出将每个域嵌入到一个一维线性子空间中,然后在源域和目标域之间建立一条测地路径。然后通过路径中的采样点并连接这些中间域来获得新的特征表示。GFK[24]进一步定义了一个测地流核,该核在不采样的情况下对位于测地路径上的所有中间子空间进行积分。此外,[17]通过MMD从粗到细选择不同数量的源样本,并通过GFK为每个级别生成几个新的特征表示。[25]提出了一种开创性的半监督跨域核学习框架,该框架可以结合许多现有的核方法。
此外,将源域和目标域对齐的特征转换是DA更自然的选择。SA[26]发现了一个最优变换矩阵,以最小化两个PCA子空间之间的伯格曼矩阵散度。
最近,CORAL[27]研究了二阶统计量,而不是一阶MMD,这使目标域具有与源域相同的协方差矩阵。[28]进一步利用二阶和高阶散射张量来学习最佳变换。
除了直接对齐变换外,另一种流行的范式试图通过维数缩减来推断域不变特征。按照这一思路,[29]学习了一个变换矩阵,该矩阵通过MMD最小化源域和目标域之间的距离,并保留数据方差。
JDA[9]首先考虑了条件分布,其中除总平均值外,类平均值也需要彼此接近。
考虑到监督源类聚类和域间MMD项,[15]进一步将该目标与正交约束一起表述为格拉斯曼流形上的优化问题。
在[5]中,研究了Hellinger距离和多项式核以提高基于流形的DA方法的鲁棒性。
[11] 通过SPD流形上的域间二阶信息发现投影。
[16] 进一步扩展[9]以解决属于不同类的域间类意味着应该被推远的问题。
相比之下,JGSA[10]为每个域学习两个不同的变换矩阵,因此,进一步发展了[26]中的子空间对齐约束,以与其他统计对齐目标相结合。
SCA[30]考虑了源域的类间和类内散射。
[35]通过将二阶相关对准损失引入深度框架,扩展了[27]。
[34]考虑了在多个层之间定义的多核MMD,
而[33]仅在单个层上使用线性MMD。
此外,[36]关注的是联合分布差异,而不是边际分布差异。
[39]描述了一种端到端深度学习框架,用于联合优化最佳深度特征表示、跨域转换和目标标签推理,以实现最先进的无监督域自适应。
除了这些基于差异的方法外,对抗性损失函数也适用于深域自适应方法[40]、[41]、[42]、[43]。
通常,对抗模型旨在引入一种新的域鉴别器来促进域混淆,即,该鉴别器无法确定数据来自哪个域。以这种方式,这两个域被认为来自同一分布[44]。
现有的对抗性DA方法试图联合减少域分歧并保持源数据的辨别能力,这些方法的总结可参考[43]。
关于损失函数,[42]、[43]、[45]分别利用最小最大损失、反向标签GAN损失和混淆损失。
相比之下,[46]提出学习多域图像的联合分布,并在生成器上设置权重共享约束
除了上述特征级方法外,[47]仅利用在源域上学习的黑盒源分类器来保护源数据的隐私。
尽管大多数现有的DA方法都是针对同质迁移学习问题提出的,但仍有一些方法利用特征增强[23]或学习中间域[48]、[49]来弥补异质DA跨域的差距。
此外,网络监督DA方法[50],[51]从免费提供的网络视频中提取特权信息,用于行动和事件识别,这是一个丰富的研究方向。
一般来说,尽管性能良好,但这些浅层方法仍存在一些限制,
- 在适应模型中,目标结构通常被忽略
- 它们不能很好地处理两个域中的不同标签分布
此外,深域自适应方法不仅依赖于高性能计算机,而且具有相对较长的训练时间和具有挑战性的参数调整过程。为此,我们提出了一个新的域差异目标,以考虑目标域中的聚类结构,用于域不变投影推理,并引入集成框架,以提高其分类器的识别能力,同时降低复杂性,使其对于大规模高维数据集更具灵活性。
三、符号和序言
设
D
s
=
{
(
x
s
i
,
y
s
i
)
}
i
=
1
n
s
\mathcal D_s=\{(x^i_s,y^i_s)\}^{n_s}_{i=1}
Ds={(xsi,ysi)}i=1ns表示源域的
n
s
n_s
ns个数据点及其相关标签。同样,我们表示
D
t
=
{
(
x
j
i
t
,
y
s
j
)
}
j
=
1
n
t
\mathcal D_t=\{(x^ji_t,y^j_s)\}^{n_t}_{j=1}
Dt={(xjit,ysj)}j=1nt目标域的
n
t
n_t
nt个数据点。对于无监督域自适应,像
x
s
i
x^i_s
xsi和
x
t
j
x^j_t
xtj这样的样本共享相同的特征维数
d
d
d,
y
t
j
∈
{
0
,
1
}
C
y^j_t\in\{0,1\}^C
ytj∈{0,1}C在训练短语中是未知的,C是类数。为了简单起见,
X
s
∈
R
d
×
n
s
X_s\in\mathbb R^{d\times n_s}
Xs∈Rd×ns和
X
t
∈
R
d
×
n
t
X_t\in\mathbb R^{d\times n_t}
Xt∈Rd×nt分别表示所有源数据和目标数据,
X
s
/
t
X_{s/t}
Xs/t的每一列表示
D
s
/
t
\mathcal D_{s/t}
Ds/t中的一个数据点。此外,
Y
s
∈
{
0
,
1
}
n
s
×
C
Y_s\in\{0,1\}^{n_s\times C}
Ys∈{0,1}ns×C和
Y
t
∈
{
0
,
1
}
n
t
×
C
Y_t\in\{0,1\}^{n_t\times C}
Yt∈{0,1}nt×C表示具有语义信息的one-hot编码,而
y
s
i
(
a
)
=
1
y^i_s(a)=1
ysi(a)=1表示第i个源数据与第a类相关联。域不变投影函数定义为x处的简单线性函数
f
(
x
)
=
A
T
x
f(x)=A^Tx
f(x)=ATx,投影参数
A
∈
R
d
×
m
A\in\mathbb R^{d\times m}
A∈Rd×m、 其中m是子空间维数。
∥
A
∥
F
:
=
t
r
(
A
A
T
)
\|A\|_F:=\sqrt{tr(AA^T)}
∥A∥F:=tr(AAT)表示A的Frobenius范数,其中
t
r
(
⋅
)
tr(\cdot)
tr(⋅)表示方阵的迹,
∥
a
∥
2
=
a
t
a
\|a\|_2=\sqrt{a^ta}
∥a∥2=ata表示一列向量a的
l
2
l_2
l2范数。
I
\mathbf I
I表示单位矩阵,
1
\mathbf 1
1是具有适当维数的所有单位的向量,
H
\mathcal H
H是再生核希尔伯特空间(RKHS)。
如上所述,域自适应的一个直观有效的解决方案是寻找一个投影函数,即域不变投影(DIP),通过该投影函数,不同的域几乎共享相同的分布。在这些DIP方法中,JDA[9]是一种经典的方法,它试图发现一种投影函数,该函数适用于联合分布,包括域之间的边缘分布和条件分布,而无需任何标记目标数据。联合分布差异的数学公式可进一步分解为两个不同的分布差异,如下所示:
min
T
∥
E
P
(
x
s
,
y
s
)
[
T
(
x
s
)
,
y
s
]
−
E
P
(
x
t
,
y
t
)
[
T
(
x
t
)
,
y
t
]
∥
2
⏟
joint distribution difference
≈
∥
E
P
s
(
x
s
)
[
T
(
x
s
)
]
−
E
P
t
(
x
t
)
[
T
(
x
t
)
]
∥
2
⏟
marginal distribution difference
+
∥
E
Q
s
(
y
s
∣
x
s
)
[
y
s
∣
T
(
x
s
)
]
−
E
Q
t
(
y
t
∣
x
t
)
[
y
t
∣
T
(
x
t
)
]
∥
2
⏟
conditional distribution difference
,
(1)
\begin{aligned} \min _T & \underbrace{\left\|\mathbb{E}_{P\left(x_s, y_s)\right.}\left[T\left(x_s\right), y_s\right]-\mathbb{E}_{P\left(x_t, y_t\right)}\left[T\left(x_t\right), y_t\right]\right\|^2}_{\text {joint distribution difference }} \\ & \approx \underbrace{\left\|\mathbb{E}_{P_s\left(x_s\right)}\left[T\left(x_s\right)\right]-\mathbb{E}_{P_t\left(x_t\right)}\left[T\left(x_t\right)\right]\right\|^2}_{\text {marginal distribution difference }} \\ &+\underbrace{\left\|\mathbb{E}_{Q_s\left(y_s \mid x_s\right)}\left[y_s \mid T\left(x_s\right)\right]-\mathbb{E}_{Q_t\left(y_t\mid x_t\right)}\left[y_t \mid T\left(x_t\right)\right]\right\|^2}_{\text {conditional distribution difference }}, \end{aligned}\tag{1}
Tminjoint distribution difference
∥
∥EP(xs,ys)[T(xs),ys]−EP(xt,yt)[T(xt),yt]∥
∥2≈marginal distribution difference
∥
∥EPs(xs)[T(xs)]−EPt(xt)[T(xt)]∥
∥2+conditional distribution difference
∥
∥EQs(ys∣xs)[ys∣T(xs)]−EQt(yt∣xt)[yt∣T(xt)]∥
∥2,(1)
其中
T
(
⋅
)
T(\cdot)
T(⋅)是要寻找的最佳投影函数,而
E
p
(
f
(
x
)
)
\mathbb E_p(f(x))
Ep(f(x))是
p
p
p下
f
(
x
)
f(x)
f(x)的期望。
MMD主要用于解决两个样本问题(样本来自两个概率分布p和q),通过对这两个分布不同的假设进行统计检验。MMD的主要思想是找到一个平滑函数,通过该函数,p和q上的平均函数值(即平均差)之间的差值最大。
设
f
f
f是一类函数
f
:
X
→
R
f:\mathcal X\rightarrow\mathbb R
f:X→R、 然后,MMD及其有偏经验估计的表达式定义为:
M
M
D
[
F
,
p
,
q
]
:
=
sup
f
∈
F
(
E
x
∼
p
[
f
(
x
)
]
−
E
y
∼
q
[
f
(
y
)
]
)
,
M
M
D
b
[
F
,
X
,
Y
]
:
=
sup
f
∈
F
(
1
m
∑
i
=
1
m
f
(
x
i
)
−
1
n
∑
i
=
1
n
f
(
y
i
)
)
.
(2)
\begin{gathered} M M D[\mathcal{F}, p, q]:=\sup _{f \in \mathcal{F}}\left(\mathbb{E}_{x \sim p}[f(x)]-\mathbb{E}_{y \sim q}[f(y)]\right), \\ M M D_b[\mathcal{F}, X, Y]:=\sup _{f \in \mathcal{F}}\left(\frac{1}{m} \sum_{i=1}^m f\left(x_i\right)-\frac{1}{n} \sum_{i=1}^n f\left(y_i\right)\right) . \end{gathered}\tag{2}
MMD[F,p,q]:=f∈Fsup(Ex∼p[f(x)]−Ey∼q[f(y)]),MMDb[F,X,Y]:=f∈Fsup(m1i=1∑mf(xi)−n1i=1∑nf(yi)).(2)
这里,
X
=
{
x
i
}
i
=
1
m
X=\{x_i\}^m_{i=1}
X={xi}i=1m和
Y
=
{
y
i
}
i
=
1
m
Y=\{y_i\}^m_{i=1}
Y={yi}i=1m分别表示从p和q采样的m和n个数据点。
从上面的定义中,我们可以看到
M
M
D
=
0
MMD=0
MMD=0当且仅当p与q不可区分(即
p
=
q
p=q
p=q)。接下来,当
F
\mathcal F
F成为通用RKHS中的核函数集
k
:
X
×
X
→
R
k:\mathcal X\times\mathcal X\rightarrow\mathbb R
k:X×X→R时,则见证函数及其有偏经验估计可参考[52]。
四、拟议的框架
4.1基于领域无关类聚类的投影学习
即使大多数工作都致力于最小化源域和目标域之间的分布差异,如何利用标记源域中的语义信息对于无监督DA方法也是至关重要的。
虽然一些方法[26]、[27]完全分离了投影学习和分类器学习,但它们仅利用对齐或投影后的最终分类器训练短语的语义标签,从而获得较差的性能。
如[10]、[15]所示,利用类聚类促进项来增加每个类的紧致性并保持投影源域的区分性。
通常,包括类聚类促进项的DIP的总体目标函数公式如下:
A
∗
=
arg
min
A
∈
S
Φ
(
A
T
X
s
,
A
T
X
t
)
+
λ
∑
c
=
1
C
∑
i
=
1
n
s
c
∥
A
T
(
x
s
i
−
μ
s
,
c
)
∥
2
2
(3)
A^*=\arg \min _{A \in \mathbb{S}} \Phi\left(A^T X_s, A^T X_t\right)+\lambda \sum_{c=1}^C \sum_{i=1}^{n_s^c}\left\|A^T\left(x_s^i-\mu_{s, c}\right)\right\|_2^2\tag{3}
A∗=argA∈SminΦ(ATXs,ATXt)+λc=1∑Ci=1∑nsc∥
∥AT(xsi−μs,c)∥
∥22(3)
函数
Φ
(
⋅
,
⋅
)
\Phi(\cdot,\cdot)
Φ(⋅,⋅)尝试对齐源和目标域,
μ
s
,
c
=
∑
y
s
i
(
c
)
=
1
x
s
i
∑
i
y
s
i
(
c
)
\mu_{s,c}=\frac{\sum_{y^i_s(c)=1}x^i_s}{\sum_iy^i_s(c)}
μs,c=∑iysi(c)∑ysi(c)=1xsi是源域中的第c类的中心,
S
\mathbb S
S是投影函数A上可能的约束,如[15]中的正交约束
S
=
{
A
∣
A
T
A
=
I
}
S=\{A|A^TA=I\}
S={A∣ATA=I}。
此外,受近期作品[9]、[14]的启发,我们可以简单地用Eq.(2)中的经验MMD作为分布差值测度来比较不同的分布,即源数据和目标数据的样本均值之间的距离。因此,式(1)可简化为:
min
A
Γ
(
A
)
=
∥
A
T
(
μ
s
−
μ
t
)
∥
2
2
+
∑
c
=
1
C
∥
A
T
(
μ
s
,
c
−
μ
t
,
c
)
∥
2
2
,
(4)
\min _A \Gamma(A)=\left\|A^T\left(\mu_s-\mu_t\right)\right\|_2^2+\sum_{c=1}^C\left\|A^T\left(\mu_{s, c}-\mu_{t, c}\right)\right\|_2^2,\tag{4}
AminΓ(A)=∥
∥AT(μs−μt)∥
∥22+c=1∑C∥
∥AT(μs,c−μt,c)∥
∥22,(4)
其中第一项是通过MMD测量的边际分布差,第二项同样表示条件分布差。
此外,
μ
s
=
∑
i
x
s
i
n
s
\mu_s=\frac{\sum_ix^i_s}{n_s}
μs=ns∑ixsi和
μ
t
=
∑
i
x
t
i
n
t
\mu_t=\frac{\sum_ix^i_t}{n_t}
μt=nt∑ixti分别是源数据和目标数据的全球中心。同样,
μ
t
,
c
=
∑
y
^
t
i
(
c
)
=
1
x
s
i
∑
i
y
^
t
i
(
c
)
\mu_{t,c}=\frac{\sum_{\hat{y}^i_t(c)=1}x^i_s}{\sum_i\hat{y}^i_t(c)}
μt,c=∑iy^ti(c)∑y^ti(c)=1xsi是目标域中的第C类簇,
y
^
t
∈
{
0
,
1
}
C
\hat{y}_t\in\{0,1\}^C
y^t∈{0,1}C是前一次迭代估计的伪标签向量。
尽管这些DIP方法比以前最先进的方法取得了实质性的进展,但它们甚至不认为相同的类聚类会导致目标域上的损失。相反,JDA利用目标域上的伪标签来寻找最优投影,并通过实验证明了其在无监督DA中的有效性。此外,[53]研究了对目标数据的判别聚类,有效地提高了自适应性能。因此,我们认为,无论源域还是目标域,共同鼓励类聚类,并尽量减少不同域间的分布差异,可以进一步提高适应性能。然后在本文中,我们提出了一个新的目标函数,它根据投影A将两个域连接在一起,
min
A
Ω
(
A
)
=
∑
c
=
1
C
∑
x
∈
D
c
∥
A
T
(
x
−
μ
c
)
∥
2
2
(5)
\min_A\Omega(A)=\sum^C_{c=1}\sum_{x\in D_c}\|A^T(x-\mu_c)\|^2_2\tag{5}
AminΩ(A)=c=1∑Cx∈Dc∑∥AT(x−μc)∥22(5)
其中
D
c
=
{
x
s
i
∣
y
s
i
(
c
)
=
1
}
∪
{
x
t
j
∣
y
^
s
j
(
c
)
=
1
}
D_c=\{x^i_s|y^i_s(c)=1\}\cup\{x^j_t|\hat y^j_s(c)=1\}
Dc={xsi∣ysi(c)=1}∪{xtj∣y^sj(c)=1}由源和目标域与同一类c相关联的所有数据点组成,而
∑
y
s
i
(
c
)
=
1
x
s
i
+
∑
y
^
t
i
(
c
)
=
1
x
t
i
∑
i
y
s
i
(
c
)
+
∑
i
y
^
t
i
(
c
)
\frac{\sum_{y^i_s(c)=1}x^i_s+\sum_{\hat y^i_t(c)=1}x^i_t}{\sum_iy^i_s(c)+\sum_i\hat y^i_t(c)}
∑iysi(c)+∑iy^ti(c)∑ysi(c)=1xsi+∑y^ti(c)=1xti是与域无关的类中心。
显然,一旦获得了伪目标标签,上述术语将把具有相同类标签的所有数据放在一起。也就是说,来自同一类的所有数据彼此接近,从而使域内方差和域间差异同时最小化。
如图1所示,它确实增加了两个领域中每个类的紧致度,似乎这个领域无关的聚类术语也可以拉近不同领域中同一类的异质中心。
为研究Eq.(4)中与条件分布差的关系,分别表示为源域和目标域中第c类的
D
c
s
=
{
x
s
i
∣
y
s
i
(
c
)
=
1
}
D^s_c=\{x^i_s|y^i_s(c)=1\}
Dcs={xsi∣ysi(c)=1}和
D
c
t
=
{
x
t
j
∣
y
^
t
j
(
c
=
1
)
}
D^t_c=\{x^j_t|\hat y^j_t(c=1)\}
Dct={xtj∣y^tj(c=1)}样本,我们将Eq.(5)中的目标函数重写如下。
[
x
←
A
T
x
]
[x \leftarrow A^Tx]
[x←ATx]
∑
x
∈
D
c
∥
x
−
μ
c
∥
2
2
=
∑
x
∈
D
c
s
∥
x
−
μ
c
∥
2
2
+
∑
x
∈
D
c
t
∥
x
−
μ
c
∥
2
2
=
∑
D
c
s
∥
x
−
μ
s
,
c
+
μ
s
,
c
−
μ
c
∥
2
2
+
∑
D
c
t
∥
x
−
μ
t
,
c
+
μ
t
,
c
−
μ
c
∥
2
2
=
∑
x
∈
D
c
s
∥
x
−
μ
s
,
c
∥
2
2
+
∑
x
∈
D
c
t
∥
x
−
μ
t
,
c
∥
2
2
+
n
s
c
⋅
∥
μ
s
,
c
−
μ
c
∥
2
2
+
n
t
c
⋅
∥
μ
t
,
c
−
μ
c
∥
2
2
=
∑
x
∈
D
c
s
∥
x
−
μ
s
,
c
∥
2
2
+
n
s
c
∥
μ
s
,
c
−
n
s
c
μ
s
,
c
+
n
t
c
μ
t
,
c
n
s
c
+
n
t
c
∥
2
2
+
∑
x
∈
D
c
t
∥
x
−
μ
t
,
c
∥
2
2
+
n
t
c
∥
μ
t
,
c
−
n
s
c
μ
s
,
c
+
n
t
c
μ
t
,
c
n
s
c
+
n
t
c
∥
2
2
=
∑
x
∈
D
c
s
∥
x
−
μ
s
,
c
∥
2
2
+
∑
x
∈
D
c
t
∥
x
−
μ
t
,
c
∥
2
2
+
β
∥
μ
s
,
c
−
μ
t
,
c
∥
2
2
.
(6)
\begin{aligned} & \sum_{x \in D_c}\left\|x-\mu_c\right\|_2^2=\sum_{x \in D_c^s}\left\|x-\mu_c\right\|_2^2+\sum_{x \in D_c^t}\left\|x-\mu_c\right\|_2^2 \\ =& \sum_{D_c^s}\left\|x-\mu_{s, c}+\mu_{s, c}-\mu_c\right\|_2^2+\sum_{D_c^t}\left\|x-\mu_{t, c}+\mu_{t, c}-\mu_c\right\|_2^2 \\ =& \sum_{x \in D_c^s}\left\|x-\mu_{s, c}\right\|_2^2+\sum_{x \in D_c^t}\left\|x-\mu_{t, c}\right\|_2^2 \\ &+n_s^c \cdot\left\|\mu_{s, c}-\mu_c\right\|_2^2+n_t^c \cdot\left\|\mu_{t, c}-\mu_c\right\|_2^2 \\ =& \sum_{x \in D_c^s}\left\|x-\mu_{s, c}\right\|_2^2+n_s^c\left\|\mu_{s, c}-\frac{n_s^c \mu_{s, c}+n_t^c \mu_{t, c}}{n_s^c+n_t^c}\right\|_2^2 \\ &+\sum_{x \in D_c^t}\left\|x-\mu_{t, c}\right\|_2^2+n_t^c\left\|\mu_{t, c}-\frac{n_s^c \mu_{s, c}+n_t^c \mu_{t, c}}{n_s^c+n_t^c}\right\|_2^2 \\ =& \sum_{x \in D_c^s}\left\|x-\mu_{s, c}\right\|_2^2+\sum_{x \in D_c^t}\left\|x-\mu_{t, c}\right\|_2^2+\beta\left\|\mu_{s, c}-\mu_{t, c}\right\|_2^2 . \end{aligned}\tag{6}
====x∈Dc∑∥x−μc∥22=x∈Dcs∑∥x−μc∥22+x∈Dct∑∥x−μc∥22Dcs∑∥x−μs,c+μs,c−μc∥22+Dct∑∥x−μt,c+μt,c−μc∥22x∈Dcs∑∥x−μs,c∥22+x∈Dct∑∥x−μt,c∥22+nsc⋅∥μs,c−μc∥22+ntc⋅∥μt,c−μc∥22x∈Dcs∑∥x−μs,c∥22+nsc∥
∥μs,c−nsc+ntcnscμs,c+ntcμt,c∥
∥22+x∈Dct∑∥x−μt,c∥22+ntc∥
∥μt,c−nsc+ntcnscμs,c+ntcμt,c∥
∥22x∈Dcs∑∥x−μs,c∥22+x∈Dct∑∥x−μt,c∥22+β∥μs,c−μt,c∥22.(6)
在这里,两个域上的第c类的整个中心都由
μ
c
\mu_c
μc表示,
n
s
c
=
∑
i
y
s
i
(
c
)
n^c_s=\sum_iy^i_s(c)
nsc=∑iysi(c)和
n
t
c
=
∑
j
y
^
t
j
(
c
)
n^c_t=\sum_j\hat y^j_t(c)
ntc=∑jy^tj(c)表示第c源和目标类的大小。中间的名词
∑
y
s
i
(
c
)
=
1
(
x
−
μ
s
,
c
)
=
0
\sum_{y^i_s(c)=1}(x-\mu_{s,c})=0
∑ysi(c)=1(x−μs,c)=0和
∑
y
t
j
(
c
)
=
1
(
x
−
μ
t
,
c
)
=
0
\sum_{y^j_t(c)=1}(x-\mu_{t,c})=0
∑ytj(c)=1(x−μt,c)=0被进一步丢弃。
另外,权衡参数
β
=
(
n
s
c
n
t
c
n
s
c
+
n
t
c
)
\beta=\left(\frac{n^c_sn^c_t}{n^c_s+n^c_t}\right)
β=(nsc+ntcnscntc)是一个常数。
此外,数据点x及其相关中心
μ
\mu
μ可以很容易地替换为它们的投影表达式。
也就是说,与领域无关的类聚类促进项可以分解为3个项,即式(4)中的条件分布差、式(3)中的源类聚类促进项和目标领域的类聚类促进项。
据我们所知,这是首次尝试发现目标域方差最小化的有效性,并分析了域内方差最小化与跨域经验分布差异最小化之间的关系。
然而,式(5)倾向于更大的类别和更大的
β
\beta
β。为了允许更多的灵活性和减轻对大多数类的偏见,我们引入了一个统一的平衡参数
λ
\lambda
λ,而不是在类聚类鼓励项之前的大小相关常数
1
/
β
1/\beta
1/β,因此,将包含经验边际分布差异最小化的最终目标函数改写为,
min
A
Γ
(
A
)
=
∥
A
T
(
μ
s
−
μ
t
)
∥
2
2
+
∑
c
=
1
C
∥
A
T
(
μ
s
,
c
−
μ
t
,
c
)
∥
2
2
+
λ
∑
c
=
1
C
[
∑
i
=
1
n
s
c
∥
A
T
(
x
s
i
−
μ
s
,
c
)
∥
2
2
+
∑
i
=
1
n
t
c
∥
A
T
(
x
t
i
−
μ
t
,
c
)
∥
2
2
]
(7)
\min _A \Gamma(A)=\left\|A^T\left(\mu_s-\mu_t\right)\right\|_2^2+\sum_{c=1}^C\left\|A^T\left(\mu_{s, c}-\mu_{t, c}\right)\right\|_2^2\\ +\lambda\sum^C_{c=1}\left[\sum^{n^c_s}_{i=1}\|A^T(x^i_s-\mu_{s,c})\|^2_2+\sum^{n^c_t}_{i=1}\|A^T(x^i_t-\mu_{t,c})\|^2_2\right]\tag{7}
AminΓ(A)=∥
∥AT(μs−μt)∥
∥22+c=1∑C∥
∥AT(μs,c−μt,c)∥
∥22+λc=1∑C⎣
⎡i=1∑nsc∥AT(xsi−μs,c)∥22+i=1∑ntc∥AT(xti−μt,c)∥22⎦
⎤(7)
有趣的是,JDA是我们提出的模型的一个特殊情况,当
λ
=
0
\lambda=0
λ=0,DIP-CC[15]是一种只考虑第一项和第三项的特殊情况。
4.2基于投影集成的目标标签估计
如前所述,本文提出了一种新的无监督DA方法,该方法交替学习域不变投影和推断伪目标标签。我们已经在4.1节中说明了如何通过伪目标标签
y
^
t
\hat y_t
y^t计算投影,因此,我们将解释投影后如何得到伪标签。
一旦源域和目标域通过DIP进行对齐,我们可以期望在源域上训练的常用分类模型,如支持向量机(SVM)和k -最近邻分类器(KNN),在目标域内取得可观的分类性能。然而,众所周知,这些分类器在直接应用于同构测试数据集时,由于协变量漂移,容易过拟合,更不用说异质投影测试数据集了。
受bagging和random forest[18]等集成方法的启发,我们随机抽取两个域偶数特征的一对子集,形成一些子源目标域对(见图2)。
除了过拟合效果外,训练过程中还涉及到伪目标标签,因此获得更好的初始化至关重要。使用多个随机子源-目标域对学习还可以生成各种域不变投影,这些“局部”投影的融合而不是“全局”寻求投影有望提高DA性能。
注意,每个耦合域子集的训练过程是独立的,即我们并行地为每个耦合域子集寻找每个最优的域不变投影。
但是这种方法与多源域泛化[54]有很大的不同,[54]是将不同源的分类器进行融合。下面我们将提供几种融合策略来推断未标记目标数据。
分别用
{
X
^
s
(
i
)
}
i
=
1
K
\{\hat X^{(i)}_s\}^K_{i=1}
{X^s(i)}i=1K和
{
X
^
t
(
i
)
}
i
=
1
K
\{\hat X^{(i)}_t\}^K_{i=1}
{X^t(i)}i=1K表示K个采样的耦合源-目标域对,以及
A
^
(
i
)
∈
R
d
×
m
\hat A^{(i)}\in\mathbb R^{d\times m}
A^(i)∈Rd×m是在第i个源子域
X
^
s
(
i
)
\hat X^{(i)}_s
X^s(i)和目标子域
X
^
t
(
i
)
\hat X^{(i)}_t
X^t(i)上学习的最佳投影。为了简单起见,我们还通过下面的第i个嵌入投影
A
^
(
i
)
\hat A^{(i)}
A^(i)(
i
∈
[
1
,
K
]
i\in[1,K]
i∈[1,K])将
Z
s
(
i
)
Z^{(i)}_s
Zs(i)和
Z
t
(
i
)
Z^{(i)}_t
Zt(i)表示为完整源域和目标域的嵌入特征:
Z
s
(
i
)
=
A
^
(
i
)
T
X
s
,
Z
t
(
i
)
=
A
^
(
i
)
T
X
t
Z^{(i)}_s=\hat A^{(i)T}X_s,Z^{(i)}_t=\hat A^{(i)T}X_t
Zs(i)=A^(i)TXs,Zt(i)=A^(i)TXt
多数投票(MV):得益于随机抽样策略和遵循投票规则,bagging算法可以在较低的方差下实现有前景的性能。在这里,我们可以遵循bagging方法的思想,即,在我们获得在每个低维源数据
Z
s
(
i
)
Z^{(i)}_s
Zs(i)上训练的K个预测器/分类器之后,直接利用最流行的融合规则,即多数投票,来决定每个目标数据的最终类别。
具体地说,每个分类器
f
i
r
:
R
m
→
R
f^r_i:\mathbb R^m\rightarrow\mathbb R
fir:Rm→R计算第i个投影源-目标对的第r类的概率分数。
然后对所有K个分类器所投的票进行计数,并将获得最大票数的候选类视为一个目标域数据点
x
∈
R
d
x\in\mathbb R^d
x∈Rd的最终类
y
ˉ
\bar y
yˉ,
y
ˉ
=
arg
max
e
∑
i
=
1
K
σ
e
(
s
i
)
,
where
s
i
=
arg
max
r
f
i
r
(
z
t
(
i
)
)
,
σ
e
(
s
i
)
=
{
1
,
s
i
=
e
,
0
,
otherwise.
(8)
\bar{y}=\arg \max _e \sum_{i=1}^K \sigma_e\left(s_i\right),\\ \text{where } s_i=\arg \max _r f_i^r\left(z_t^{(i)}\right), \sigma_e\left(s_i\right)= \begin{cases}1, & s_i=e, \\ 0, & \text { otherwise. }\end{cases}\tag{8}
yˉ=argemaxi=1∑Kσe(si),where si=argrmaxfir(zt(i)),σe(si)={1,0,si=e, otherwise. (8)
加权多数投票(WMV):
MV中的每个分类器只对一个类投票,即对其他类的投票等于零,这可能会丢失一些信息。WMV将分类分数视为连续加权投票
f
i
t
(
x
)
f^t_i(x)
fit(x),而不是离散
{
0
,
1
}
\{0,1\}
{0,1}票,因此WMV规则定义为
y
ˉ
i
=
arg
max
e
∑
i
=
1
K
f
i
r
(
x
)
(9)
\bar y_i=\arg\max_e\sum^K_{i=1}f^r_i(x)\tag{9}
yˉi=argemaxi=1∑Kfir(x)(9)
因此,应选择能够输出概率分数的分类器。否则,像1-NN这样的分类器只能生成离散分数,使得WMV等于等式(8)中的MV。
特征级融合(FF):
相比之下,FF将不同的投影
A
^
(
i
)
\hat A^{(i)}
A^(i)而不是分类器组合在一起,这类似于特征连接方法。也就是说,我们可以连接所有学习的域不变投影,以获得
A
c
o
n
=
[
A
^
(
1
)
,
…
,
A
^
(
K
)
]
∈
R
d
×
K
c
A_{con}=[\hat A^{(1)},\dots,\hat A^{(K)}]\in\mathbb R^{d\times K_c}
Acon=[A^(1),…,A^(K)]∈Rd×Kc。然后,我们可以在
A
c
o
n
T
X
s
A^T_{con}X_s
AconTXs处的源域上训练分类器,并在
A
c
o
n
T
X
t
A^T_{con}X_t
AconTXt处直接预测目标域。
以基于欧氏距离的NN分类器为例,我们可以从不同的角度理解特征拼接投影
A
c
o
n
A_{con}
Acon,
∥
A
c
o
n
T
(
x
1
−
x
2
)
∥
2
2
=
∑
i
=
1
K
∥
A
^
(
i
)
T
(
x
1
−
x
2
)
∥
2
2
(10)
\|A^T_{con}(x_1-x_2)\|^2_2=\sum^K_{i=1}\|\hat A^{(i)T}(x_1-x_2)\|^2_2\tag{10}
∥AconT(x1−x2)∥22=i=1∑K∥A^(i)T(x1−x2)∥22(10)
对于每两个样本
x
1
,
x
2
∈
R
d
x_1,x_2\in\mathbb R^d
x1,x2∈Rd。即,每个投影的距离被向上投影以形成任何成对数据点的总距离。同样,一旦特征被归一化为单位长度,基于余弦距离的神经网络分类器具有相同的属性。
4.3重新配方和优化
等式(7)中提出的目标函数
L
(
A
)
\mathcal L(A)
L(A)不直观,因此我们引入了几个变量
Q
0
∈
R
(
n
s
+
n
t
)
×
(
n
s
+
n
t
)
Q^0\in\mathbb R^{(n_s+n_t)\times(n_s+n_t)}
Q0∈R(ns+nt)×(ns+nt);
Q
c
Q^c
Qc;
c
∈
[
1
,
C
]
c\in[1,C]
c∈[1,C]为了简化优化问题,每个元素定义为
Q
i
j
0
=
{
1
n
s
n
s
,
x
i
,
x
j
∈
D
s
1
n
t
n
t
,
x
i
,
x
j
∈
D
t
−
1
n
s
n
t
,
otherwise
,
Q
i
j
c
=
{
1
n
s
c
n
s
c
,
x
i
,
x
j
∈
D
s
c
1
n
t
c
n
t
c
,
x
i
,
x
j
∈
D
t
c
−
1
n
s
c
n
t
c
,
x
i
∈
D
s
c
,
x
j
∈
D
t
c
−
1
n
s
c
n
t
c
,
x
j
∈
D
s
c
,
x
i
∈
D
t
c
0
,
otherwise
(11)
Q^0_{ij}=\begin{cases}\frac{1}{n_sn_s},x_i,x_j\in \mathcal D_s\\\frac{1}{n_tn_t},x_i,x_j\in \mathcal D_t\\\frac{-1}{n_sn_t},\text{otherwise}\end{cases},Q^c_{ij}=\begin{cases}\frac{1}{n_s^cn_s^c},x_i,x_j\in \mathcal D_s^c\\\frac{1}{n_t^cn_t^c},x_i,x_j\in \mathcal D_t^c\\\frac{-1}{n_s^cn_t^c},x_i\in\mathcal D_s^c,x_j\in \mathcal D_t^c\\\frac{-1}{n_s^cn_t^c},x_j\in\mathcal D_s^c,x_i\in \mathcal D_t^c\\0,\text{otherwise}\end{cases}\tag{11}
Qij0=⎩
⎨
⎧nsns1,xi,xj∈Dsntnt1,xi,xj∈Dtnsnt−1,otherwise,Qijc=⎩
⎨
⎧nscnsc1,xi,xj∈Dscntcntc1,xi,xj∈Dtcnscntc−1,xi∈Dsc,xj∈Dtcnscntc−1,xj∈Dsc,xi∈Dtc0,otherwise(11)
这里,
x
i
x_i
xi和
x
j
x_j
xj是
[
X
s
,
X
t
]
∈
R
d
×
(
n
s
+
n
t
)
[X_s,X_t]\in\mathbb R^{d\times(n_s+n_t)}
[Xs,Xt]∈Rd×(ns+nt)的第i列和第j列。以这种方式,等式(7)的第一项和第二项可以重写为
∥
A
T
(
1
n
s
∑
i
=
1
n
s
x
i
−
1
n
t
∑
j
=
n
s
+
1
n
s
+
n
t
x
j
)
∥
2
2
=
t
r
(
A
T
X
Q
0
X
T
A
)
(12)
\left\|A^T\left(\frac{1}{n_s}\sum^{n_s}_{i=1}x_i-\frac{1}{n_t}\sum^{n_s+n_t}_{j=n_s+1}x_j\right)\right\|^2_2=tr(A^TXQ^0X^TA)\tag{12}
∥
∥AT(ns1i=1∑nsxi−nt1j=ns+1∑ns+ntxj)∥
∥22=tr(ATXQ0XTA)(12)
其中
Q
0
Q^0
Q0也被称为MMD矩阵。则等式(7)中的第二项可以重写为:
∥
A
T
(
∑
i
=
1
n
s
x
i
y
i
(
c
)
/
n
s
c
−
∑
j
=
n
s
+
1
n
s
+
n
t
x
i
y
j
(
c
)
/
n
t
c
)
∥
2
2
=
t
r
(
A
T
X
Q
c
X
T
A
)
\left\|A^T\left(\sum^{n_s}_{i=1}x_iy_i(c)/n^c_s-\sum^{n_s+n_t}_{j=n_s+1}x_iy_j(c)/n_t^c\right)\right\|^2_2=tr(A^TXQ^cX^TA)
∥
∥AT(i=1∑nsxiyi(c)/nsc−j=ns+1∑ns+ntxiyj(c)/ntc)∥
∥22=tr(ATXQcXTA)
其中
Y
=
[
Y
s
;
Y
^
t
]
∈
{
0
,
1
}
(
n
s
+
n
t
)
×
C
Y=[Y_s;\hat Y_t]\in\{0,1\}^{(n_s+n_t)\times C}
Y=[Ys;Y^t]∈{0,1}(ns+nt)×C是语义标签的整体one-hot编码。
受线性判别分析(LDA)的启发,我们进一步将等式(7)中可被视为类内方差的最后两个类聚类促进项转换为与等式(12)类似的表达式。
∑
c
=
1
C
∑
i
=
1
n
s
c
∥
A
T
(
x
s
i
−
μ
s
,
c
)
∥
2
2
=
∥
A
T
(
X
s
−
X
s
Y
s
(
Y
s
T
Y
s
)
−
1
Y
s
T
)
∥
F
2
=
tr
(
A
T
X
s
(
I
−
Y
s
(
Y
s
T
Y
s
)
−
1
Y
s
T
)
X
s
T
A
)
∑
c
=
1
C
∑
i
=
1
n
t
c
∥
A
T
(
x
t
i
−
μ
t
,
c
)
∥
2
2
=
tr
(
A
T
X
t
(
I
−
Y
^
t
(
Y
^
t
T
Y
^
t
)
−
1
Y
^
t
T
)
X
t
T
A
)
.
\begin{aligned} &\sum_{c=1}^C \sum_{i=1}^{n_s^c}\left\|A^T\left(x_s^i-\mu_{s, c}\right)\right\|_2^2=\left\|A^T\left(X_s-X_s Y_s\left(Y_s^T Y_s\right)^{-1} Y_s^T\right)\right\|_F^2 \\ &=\operatorname{tr}\left(A^T X_s\left(I-Y_s\left(Y_s^T Y_s\right)^{-1} Y_s^T\right) X_s^T A\right) \\ &\sum_{c=1}^C \sum_{i=1}^{n_t^c}\left\|A^T\left(x_t^i-\mu_{t, c}\right)\right\|_2^2=\operatorname{tr}\left(A^T X_t\left(I-\hat{Y}_t\left(\hat{Y}_t^T \hat{Y}_t\right)^{-1} \hat{Y}_t^T\right) X_t^T A\right) . \end{aligned}
c=1∑Ci=1∑nsc∥
∥AT(xsi−μs,c)∥
∥22=∥
∥AT(Xs−XsYs(YsTYs)−1YsT)∥
∥F2=tr(ATXs(I−Ys(YsTYs)−1YsT)XsTA)c=1∑Ci=1∑ntc∥
∥AT(xti−μt,c)∥
∥22=tr(ATXt(I−Y^t(Y^tTY^t)−1Y^tT)XtTA).
然后,我们可以自然地将上述两项合并为一个新变量
Q
c
c
∈
R
(
n
s
+
n
t
)
×
(
n
s
+
n
t
)
Q^{cc}\in\mathbb R^{(n_s+n_t)\times(n_s+n_t)}
Qcc∈R(ns+nt)×(ns+nt)
Q
c
c
=
[
I
−
Y
s
(
Y
s
T
Y
s
)
−
1
Y
s
0
0
I
−
Y
^
t
(
Y
^
t
T
Y
^
t
)
−
1
Y
^
t
]
(13)
Q^{cc}=\begin{bmatrix}I-Y_s(Y^T_sY_s)^{-1}Y_s&0\\0&I-\hat Y_t(\hat Y_t^T\hat Y_t)^{-1}\hat Y_t\end{bmatrix}\tag{13}
Qcc=[I−Ys(YsTYs)−1Ys00I−Y^t(Y^tTY^t)−1Y^t](13)
为此,我们在等式(7)中提供了每个项的重新表述,因此显然可以获得以下等效目标函数
Ψ
(
A
)
=
t
r
(
A
T
X
Q
a
l
l
X
T
A
)
\Psi(A)=tr(A^TXQ^{all}X^TA)
Ψ(A)=tr(ATXQallXTA)其中
Q
a
l
l
=
∑
c
=
0
C
Q
c
+
λ
Q
c
c
Q^{all}=\sum^C_{c=0}Q^c+\lambda Q^{cc}
Qall=∑c=0CQc+λQcc,两项均归一化为单位F范数。为了避免非平凡解,我们进一步考虑最大化两个域的方差,即
t
r
(
A
T
X
H
X
T
A
)
tr(A^TXHX^TA)
tr(ATXHXTA),其中
H
=
I
−
1
n
s
+
n
t
1
H=I-\frac{1}{n_s+n_t}\mathbf 1
H=I−ns+nt11是中心矩阵。因此,总体优化问题A简化为以下公式:
min
A
t
r
(
A
T
X
Q
a
l
l
X
T
A
)
+
γ
∥
A
∥
F
2
,
s
.
t
.
A
T
X
H
X
T
A
=
I
(14)
\min_Atr(A^TXQ^{all}X^TA)+\gamma\|A\|^2_F,s.t.A^TXHX^TA=I\tag{14}
Amintr(ATXQallXTA)+γ∥A∥F2,s.t.ATXHXTA=I(14)
其中
γ
\gamma
γ是避免数值不稳定性问题的超参数。有趣的是,第二个的最优解是
A
∈
R
d
×
m
A\in\mathbb R^{d\times m}
A∈Rd×m满足上述由广义特征值问题给出的目标函数:
(
X
Q
a
l
l
X
T
+
γ
I
)
a
=
η
X
H
X
T
a
(15)
(XQ^{all}X^T+\gamma I)a=\eta XHX^Ta\tag{15}
(XQallXT+γI)a=ηXHXTa(15)
其中
η
\eta
η是第i个最小特征值,
a
∈
R
d
a\in\mathbb R^d
a∈Rd是A,
i
∈
[
1
,
m
]
i\in[1,m]
i∈[1,m]中相关的第i列
内核扩展:
请注意,我们仅使用
A
T
X
A^TX
ATX处的线性投影进行域自适应,因为一些研究显示了非线性函数的优越性,我们进一步考虑非线性核映射
ψ
:
x
→
ψ
(
x
)
\psi:x\rightarrow\psi(x)
ψ:x→ψ(x)以增强适应能力。那么对于核矩阵
K
=
ψ
(
X
)
T
ψ
(
X
)
∈
R
(
n
s
+
n
t
)
×
(
n
s
+
n
t
)
\mathcal K=\psi(X)^T\psi(X)\in\mathbb R^{(n_s+n_t)\times(n_s+n_t)}
K=ψ(X)Tψ(X)∈R(ns+nt)×(ns+nt)我们利用Representer定理[55]并得到以下问题,
min
A
k
t
r
(
A
k
T
K
Q
a
l
l
K
T
A
k
)
+
γ
∥
A
k
∥
F
2
,
s
.
t
.
A
k
T
K
H
K
T
A
k
=
I
(16)
\min_{A_k}tr(A^T_k\mathcal KQ^{all}\mathcal K^TA_k)+\gamma\|A_k\|^2_F,\\s.t.A^T_k\mathcal KH\mathcal K^TA_k=I\tag{16}
Akmintr(AkTKQallKTAk)+γ∥Ak∥F2,s.t.AkTKHKTAk=I(16)
其中
A
k
T
K
c
←
(
ψ
(
X
)
A
)
T
ψ
(
X
)
A^T_kK_c\leftarrow(\psi(X)A)^T\psi(X)
AkTKc←(ψ(X)A)Tψ(X)两个方程的解。(14) 和(16)非常容易实现。
标签传播扩展。
考虑到伪标签推断步骤中的全局结构,我们在1-NN分类器之后进一步利用理想的闭式标签传播(LP)方法[20]、[56]。
除了这些扩展之外,我们还提出了一种像bagging无监督DA算法。在本文中,
X
s
X_s
Xs和
X
t
X_t
Xt应被其各自的子集
X
s
(
i
)
X^{(i)}_s
Xs(i)和
X
t
(
i
)
X^{(i)}_t
Xt(i)替换,以通过等式(15)寻求最佳投影
A
(
i
)
A^{(i)}
A(i)。一旦我们获得了基于不同子集的所有K域不变投影,我们将在第4.2节中采用这些融合策略(即MV、WMV和FF),为目标数据构建更稳健和准确的预测。算法2中总结了我们提出的方法的伪码。
4.4复杂性分析
我们分析了算法1中提出的基本域不变投影及其算法2中的投影集成方法。对于基本投影,它包括两个主要部分,投影推理和最近邻分类,在T次迭代中。
具体地说,投影推断步骤占用
O
(
m
d
2
)
O(md^2)
O(md2),分类步骤占用
O
(
m
n
s
n
t
)
O(mn_sn_t)
O(mnsnt),并且构建MMD矩阵
Q
c
(
0
≤
c
≤
C
)
Q^c(0\le c\le C)
Qc(0≤c≤C)占据
O
(
(
n
s
+
n
t
)
2
)
O((n_s+n_t)^2)
O((ns+nt)2),剩余的步骤如矩阵乘法占据
O
(
m
d
(
n
s
+
n
t
)
)
O(md(n_s+n_t))
O(md(ns+nt))。因此,算法1的总体时间复杂度为
O
(
T
m
d
2
+
T
m
n
s
n
t
+
T
(
n
s
+
n
t
)
2
+
T
m
d
(
n
s
+
n
t
)
)
O(Tmd^2+Tmn_sn_t+T(n_s+n_t)^2+Tmd(n_s+n_t))
O(Tmd2+Tmnsnt+T(ns+nt)2+Tmd(ns+nt))。
用
δ
f
,
δ
s
,
δ
t
\delta_f,\delta_s,\delta_t
δf,δs,δt分别表示特征、源和目标实例的采样密度。显然,基本方法的时间复杂度降低到
O
(
T
m
δ
f
2
d
2
+
T
m
δ
s
δ
t
n
s
n
t
+
T
(
δ
s
n
s
+
δ
t
n
t
)
2
+
T
m
δ
f
d
(
δ
s
n
s
+
δ
t
n
t
)
)
O(Tm\delta^2_fd^2+Tm\delta_s\delta_tn_sn_t+T(\delta_sn_s+\delta_tn_t)^2+Tm\delta_fd(\delta_sn_s+\delta_tn_t))
O(Tmδf2d2+Tmδsδtnsnt+T(δsns+δtnt)2+Tmδfd(δsns+δtnt))。在获得K个投影后,以MV策略为例,最终分类步骤占用
O
(
K
m
n
s
n
t
)
O(Kmn_sn_t)
O(Kmnsnt)。假定
n
ˇ
=
δ
s
n
s
+
δ
t
n
t
\check{n}=\delta_sn_s+\delta_tn_t
nˇ=δsns+δtnt,则算法2的总体计算复杂度为
O
(
K
T
m
δ
f
2
d
2
+
K
T
m
n
ˇ
2
+
K
T
n
ˇ
2
+
K
m
δ
f
d
n
ˇ
)
O(KTm\delta^2_fd^2+KTm\check{n}^2+KT\check{n}^2+Km\delta_fd\check{n})
O(KTmδf2d2+KTmnˇ2+KTnˇ2+Kmδfdnˇ)。
4.5超参数设置
在报告详细的评估结果之前,必须说明如何调整DICE超级参数。根据经验, λ \lambda λ固定为1用于平衡域间和域内目标,因此只有两个超参数 γ , m \gamma,m γ,m保持可调。由于无监督DA没有可用的目标标签,因此不可能进行标准交叉验证。
五、实验
5.1数据库
Office31[57]包括从3个域获取的31个对象的图像,在[27]之后,我们利用在源域上微调的AlexNet-FC7功能。
Office Caltech包含来自Office 31和Caltech256[58]数据集之间10个重叠对象类的图像。
Office Home[59]是一个新的基准数据集,包含4个域,每个域包含65种日常对象,
PIE[60]包括68个人的面部图像,这些面部图像具有各种姿势、照明和表情变化。
MNIST-USPS包括两个经典的手写数字图像数据集,USPS[61]和MNIST[62]。
COIL20[63]是另一个对象数据集,包含20个类的1440个样本,图像大小为
32
×
32
32\times32
32×32我们根据捕获方向将数据集分成两个子集COIL1和COIL2[9]。
5.2基线方法和实验设置
对于基本DICE,由于其简单性和无参数特性,我们在训练过程中采用了1-NN分类器。除了原始DICE,我们遵循[9]、[10]开发了两个典型的内核化版本
D
I
C
E
l
i
n
DICE_{lin}
DICElin、
D
I
C
E
r
b
f
DICE_{rbf}
DICErbf,并将它们与JGSA的核化变体进行比较。
为了与基于非1-NN的浅层方法进行比较,我们还引入了与DICE不同的
D
I
C
E
S
V
M
DICE_{SVM}
DICESVM,在最后一步中,使用整体SVM分类器而不是1NN分类器来预测最终目标标签。
此外,我们在伪标签推断步骤中使用标签传播增强DICE,即
D
I
C
E
l
p
DICE_{lp}
DICElp,并将其与DGA-DA进行比较。注意,所有这些方法都基于算法1,没有“采样和融合”策略。
训练协议。
对于表1中除Office Caltech外的所有数据集,除非另有规定,我们利用所有源实例进行训练。
l
2
l_2
l2标准化用于所有特征,包括像素和深度特征,此外,我们尝试表5中的饼图的z分数标准化。
参数设置
在本文中,我们总是设置
λ
\lambda
λ为1,将最大迭代次数设置为10,而两个参数
γ
;
m
\gamma;m
γ;m通过第4.5节中的5倍交叉验证进行选择。
我们还为不同的数据集提供了最佳参数,包括Office31(
γ
=
0.05
,
m
=
30
\gamma=0.05,m=30
γ=0.05,m=30)、OfficeAltech(
γ
=
0.1
,
m
=
10
\gamma=0.1,m=10
γ=0.1,m=10,用于SURF和
V
G
G
−
F
C
6
,
7
,
m
=
15
VGG-FC_{6,7},m=15
VGG−FC6,7,m=15,用于
D
e
C
A
F
6
DeCAF_6
DeCAF6和SURF,采用“拆分”协议)、办公家庭(
γ
=
0.05
,
m
=
100
\gamma=0.05,m=100
γ=0.05,m=100)、PIE(
γ
=
0.01
,
m
=
100
\gamma=0.01,m=100
γ=0.01,m=100)、MNIST-USPS(
γ
=
0.1
,
m
=
10
,
30
\gamma=0.1,m=10,30
γ=0.1,m=10,30)和COIL20(
γ
=
0.1
,
m
=
10
\gamma=0.1,m=10
γ=0.1,m=10)。
5.3基本域不变投影的结果
在本节中,我们将DICE及其扩展与相应的对等方法进行无监督自适应比较。
Office31数据集上的结果。表2总结了Office31的比较结果。
Office Caltech数据集上的结果。如前所述,我们在这个经典数据集上进行了各种比较实验。首先,我们研究了表3中“全训练”协议下的SURF和
D
e
C
A
F
6
DeCAF_6
DeCAF6功能。
其次,我们还将我们的方法与表4中“拆分”协议下的SOTA方法(例如,CORAL[27]和ILS[11])进行了比较。
饼图数据集上的结果
对于跨域面部图像识别任务,我们广泛比较了DICE与几种SOTA方法,包括OTGL[64]、CDDA和JGSA,以及表5中的两种数据预处理工具。
l
2
l_2
l2标准化是一种广泛使用的工具,尤其是面部图像,但受Office Caltech的SURF功能的启发,我们还尝试将z分数标准化用于原始像素特征。
Office Home数据集的结果
在[27]之后,我们使用标记的源域对ImageNet上的预训练ResNet50和ResNet152模型[32]进行微调,并提取第五池特征用于无监督域自适应。
其中,DICE仍然表现最好,而JDA、CDDA和JGSA彼此相当。结果表明,无论特征预处理如何,我们的方法都可以获得更好的性能。此外,我们还通过VGG-F网络展示了[59]中的原始结果,我们的结果在识别精度方面可以轻松击败它们。
MNIST-USPS和COIL20数据集的结果。
D
I
C
E
l
p
DICE_lp
DICElp提高了识别精度,但仍低于DGA-DA,然而,CDDA和DGA-DA的报告结果远高于我们复制的结果。这两个领域的表现可能不同,JGSA利用了特定领域的投影,允许更大的灵活性,使其优于DICE。
表7中的比较结果表明,DICE在所有任务和设置中实现了最高精度。
5.3.1消融研究和参数分析
为了验证所提出算法的有效性,我们进行了消融研究,其结果如图3所示
对于前4个数据集,SC和TC始终可以提高TCA和JDA的性能,但由于初步迭代中可能的累积误差,它们损害了MNIST-USPS和COIL20上TCA两种方法的性能。
粗略地说,JDA的性能优于TCA,DICE的性能优于两者,这表明这三项在我们的方法中都是必不可少的。
如图4所示
λ
\lambda
λ随着数据集的增大,每个数据集的平均精度先增大,然后逐渐减小。
5.4随机集合方法的结果
Con-1-NN和Con-SVM是两种典型的FF方法,它们将在不同子域对上学习的所有投影特征连接起来,并分别训练整体1-NN或线性SVM分类器;
MV-1-NN和MV-SVM是两种具有代表性的MV方法,它们计算基于不同子域对构建的每个1-NN或SVM分类器的投票,并确定最有利的候选类别;WMV-1-NN是WMV方法的一个典型示例,它考虑连续投票而不是离散投票
我们采用与MV相同的one hot编码,即只有一个候选类拥有非零分数,但分数计算为比率
∑
i
=
1
τ
δ
y
1
(
y
i
)
/
τ
\sum^{\tau}_{i=1}\delta_{y_1}(y_i)/\tau
∑i=1τδy1(yi)/τ,其中邻域大小
τ
\tau
τ固定为10,
y
i
y_i
yi是第i个最近邻居的标签。
显然,该融合策略对于分布式系统非常有利,可以减轻大规模高维数据集的计算负担。
然而,我们更感兴趣的是这种策略是否提高了跨域识别的准确性。为了研究有效性和灵敏度,在图5中我们绘制了对象数据集OfficeAltech和数字数据集MNIST-USPS的平均识别精度,而采样密度为
δ
s
,
δ
t
,
δ
f
\delta_s,\delta_t,\delta_f
δs,δt,δf在
[
0.1
,
0.2
,
…
,
0.9
]
[0.1,0.2,\dots,0.9]
[0.1,0.2,…,0.9]范围内分别地变化。
然后,我们在几个高维(即d>1000)数据集上仅通过特征采样来执行集成方法,结果如表8所示。
从表8中可以看出,几乎所有的随机集成方法在平均识别准确率方面始终优于DICE和
D
I
C
E
s
v
m
DICE_{svm}
DICEsvm。每个类均匀分布在COIL20数据集上,基本方法DICE的识别精度相当高,这可能解释了为什么采样策略不能很好地工作。然而,这些相对较低的精确度仍然远高于表7中的第二最佳方法JGSA(94.7%)。
这一观察表明,多数投票是比连接特征进行特征采样更好的选择。仔细观察PIE数据集上每个任务的平均精度,基于神经网络和支持向量机的集成方法性能优于其基线模型,即使维数相对小于一般深度表示。此外,与平均值相比,偏差较小,这表明从随机系综方法获得的结果是准确和稳定的。
除了特征采样之外,我们还研究了源域和目标域上的两个基准数据集的实例采样。5a、5b、5d和5e)。粗略地看这些图,WMV-1-NN在不同的采样选择下总是获得最佳性能,在大多数采样密度下也优于MV-SVM和Conv-SVM。此外,MV-1-NN和MV-SVM始终分别优于Conv-1-NN和Conv-SVM,这再次验证了多数投票是融合不同投影的比级联特征更好的选择。当
δ
s
≥
0.3
,
δ
t
≥
0.4
,
δ
f
≥
0.5
\delta_s\ge 0.3,\delta_t\ge 0.4,\delta_f\ge 0.5
δs≥0.3,δt≥0.4,δf≥0.5,所有基于神经网络的集成方法都优于Office Caltech数据集上的DICE。这可能是因为Office Caltech上的10个对象类不平衡,并且源和目标的标签分布也显著不同。而对于数字数据集,仅对于0.7、0.8等大采样密度,融合方法优于DICE。正如我们所预期的,
δ
f
\delta_f
δf是最活跃的采样密度,因为这里的原始特征维数
(
800
,
256
)
(800,256)
(800,256)相当低。
5.4.1混合抽样的讨论
我们利用具有SURF特征的Office Caltech数据集,并确定固定K 10的采样密度的几个相对较大的值,每个设置的WMV-1-NN的比较结果如表9所示
在这些融合方法中,DICEstf优于DICEst和DICEf,而DICEst优于DICEt,但略低于DICEs。这表明混合采样在以较低的计算成本提高自适应性能方面具有巨大潜力。
重新检查结果,我们发现
D
I
C
E
s
DICE_s
DICEs通常在源域A、C相对较大的前6个任务中表现最好。同样,
D
I
C
E
t
DICE_t
DICEt在小规模源区D和W中获得了有希望的结果。
将源实例和目标实例采样结合在一起,
D
I
C
E
s
t
DICE_{st}
DICEst不仅提高了
D
I
C
E
t
DICE_t
DICEt的平均精度,而且为整个数据集获得了较低的偏差值0.20。
这一发现也适用于两个中等规模的子任务
A
⇄
C
A \rightleftarrows C
A⇄C。除了实例采样之外,
D
I
C
E
s
t
f
DICE_{stf}
DICEstf还结合了特征采样,实现了除
A
→
W
、
C
→
D
A\rightarrow W、 C\rightarrow D
A→W、C→D的最好表现。
在这种情况下,源域比目标域大得多,对目标实例的采样会严重破坏分布,使学习投影次优。
5.4.2鲁棒性、泛化与大规模实例
此外,我们还研究了几个重要问题,包括对源标签分布的鲁棒性、学习投影的泛化能力以及在大规模数字数据集 S V H N → M N I S T SVHN\rightarrow MNIST SVHN→MNIST上的性能[39],[43]。具体而言,我们测量均匀/非均匀源标签分布下的鲁棒性,而泛化能力通过类“A、B”的学习投影和预测跨域类“C、D”来表示自适应性能。
总结
在这项工作中,我们分析了与领域无关的类聚类目标,并推导了一种新的目标函数来学习用于无监督领域自适应的领域不变投影。最优投影和伪目标标签交替优化,在每次迭代中,通过求解广义特征值问题以闭合形式计算投影,同时通过在投影源域上训练的判别分类器估计伪标签。
为了提高最终分类器的识别能力,我们首先将“采样和融合”策略引入域自适应任务,其中在耦合域子集上优化多个独立投影。实际上,这种集成方法可以自然地并行化,并且对于大规模和高维数据集是灵活的。大量的实验结果表明,我们的方法在识别准确率方面收敛速度快,性能优于或可与最先进的方法相比。
我们相信我们的方法很容易扩展到半监督和多源无监督领域自适应任务。这对于标记部分目标数据或存在多个标记源域的某些场景非常有用。在这个意义上,可以引入标签传播来处理标记的目标数据,并且可以在多源融合中容易地利用多核学习。
此外,多个域不变投影是独立学习的,不考虑每个投影之间的显式相关性。一个有趣的方向是协作学习多个预测,预计这将取得更有希望的结果。我们打算在今后的工作中调查这些问题。
Reference
《Aggregating Randomized Clustering-Promoting Invariant Projections for Domain Adaptation》