《Moka‑ADA: adversarial domain adaptation with model‑oriented knowledge adaptation for cross‑domain sentiment analysis》阅读笔记
原文地址:Paper
摘要
跨领域情感分析(CDSA)旨在克服领域差异,判断缺乏标记数据的目标领域的情感极性。最近的研究主要集中在使用领域自适应方法来解决这类领域迁移问题。其中,对抗性学习通过领域混淆进行领域分布对齐,传递领域不变知识。然而,这种将特征表示转换为域不变的方法往往只对齐边缘分布,并且不可避免地会扭曲包含判别知识的原始特征表示,从而使条件分布不一致。为了解决这一问题,我们提出了基于面向模型的知识自适应(Moka-ADA)的对抗领域自适应方法。采用对抗判别域自适应(ADDA)框架学习边缘分布对齐的域不变知识,在此基础上对源模型和目标模型进行条件分布对齐的知识自适应。具体来说,我们设计了一个对中间特征表示和最终分类概率具有相似性约束的双重结构,使训练中的目标模型从训练的源模型中学习判别知识。在公开可用的情感分析数据集上的实验结果表明,我们的方法达到了新的最先进的性能。
一、简单介绍
ADDA等对抗训练方法虽然可以很大程度上减小域差异,但在匹配源域特征分布和目标域特征分布时存在缺陷,特征的可识别性可能得不到保证。如图1b所示,他们主要倾向于只对齐两个域之间的边缘分布,以弥合域间隙。然而,这可能不够有效,因为仍然存在如图1c所示的条件分布不一致。其原因是包含判别知识的原始特征表示被扭曲,导致理想联合假设的误差增大,理想联合假设的误差是对两个领域之间适应性的显式量化。当自适应性较差时,我们很难期望通过最小化源误差和两个域分布之间的距离来学习低目标误差的分类器。
为了解决上述问题,我们针对CDSA任务提出了基于面向模型的知识自适应(Moka-ADA)的对抗性领域自适应,其目的是同时对齐边缘分布和条件分布,如图1d所示。在这项工作中,我们采用ADDA作为基本的对抗训练框架来学习边缘分布对齐的领域不变知识。同时,为了学习判别知识来对齐条件分布,我们首先考虑使用最大平均差(MMD)来测量和最小化中间特征表示的距离,以减少域差异。Wang等人证明最小化MMD会导致类内距离的增加,因此,我们进一步在最终分类概率下进行知识蒸馏(knowledge distillation, KD)以促进知识转移,这有助于增加类间距离,从而减小类内距离。因此,我们提出了包含中间特征表示相似约束(ISC)和最终分类概率相似约束(FSC)的完整模型导向知识自适应(Moka)模块,旨在帮助训练中的目标模型从训练的源模型中学习判别性知识,从而提高对抗域自适应(ADA)的有效性。
本文提出了一种新的方法Moka-ADA来学习域不变和判别知识,以确保边缘分布和条件分布同时对齐:
- 设计了一个面向模型的知识自适应模块,该模块包含具有相似约束的双重结构,使训练中的目标模型能够从训练的源模型中学习判别性知识。
- 采用知识蒸馏来促进区分性知识的转移,这有助于增加类间距离从而减少类内距离,增强对抗性领域适应的稳定性。
- 在亚马逊评论基准数据集上进行了广泛的实验,平均准确率为94.25%,将CDSA任务的最先进性能提高了1.11%。
二、相关工作
这部分省略,主要对情感分析、领域自适应和知识蒸馏的基础知识做了简单的介绍。
三、方法
3.1 问题定义及符号
源域数据样本:
X
S
=
{
(
x
s
i
,
y
s
i
)
}
i
=
1
n
s
,
(
x
s
,
y
s
)
∼
D
S
X_S=\{(x^i_s,y^i_s)\}^{n_s}_{i=1}, \ (x_s,y_s)\sim\mathbb{D}_S
XS={(xsi,ysi)}i=1ns, (xs,ys)∼DS,其中
n
s
n_s
ns为源域样本数量
目标域数据样本:
X
T
=
{
(
x
t
i
)
}
i
=
1
n
t
,
x
t
∼
D
T
X_T=\{(x^i_t)\}^{n_t}_{i=1}, \ x_t\sim\mathbb{D}_T
XT={(xti)}i=1nt, xt∼DT,其中
n
t
n_t
nt为目标域样本数量
模型的基础网络由三个组成部分组成,包括两个提取特征表示 h \boldsymbol{h} h的特征提取器 E s \boldsymbol{E_s} Es和 E t \boldsymbol{E_t} Et,一个将特征表示 h \boldsymbol{h} h映射到分类概率 p \boldsymbol{p} p的分类器 C s \boldsymbol{C_s} Cs,以及一个将特征表示 h \boldsymbol{h} h映射到域概率 q \boldsymbol{q} q的域鉴别器 C d \boldsymbol{C_d} Cd
3.2 面向模型的知识适应
为了使训练中的目标编码器从训练后的源编码器中学习鉴别性知识,设计了一个面向模型的知识自适应模块,包括中间特征表示相似度约束(ISC)和最终分类概率相似度约束(FSC)。
3.2.1 基于再现核希尔伯特空间的中间相似约束(ISC)
源编码器和目标编码器将源数据映射到一个共同的特征空间,得到特征表示,然后利用核函数将特征表示转换到再现核希尔伯特空间(RKHS),以提高它们在高维空间中的匹配概率。但是,它们之间没有已知的成对对应关系,因此不可能进行成对测试。因此,我们可以将问题表述为双样本检验,并考虑用最大平均差(MMD)来测量距离。通过最小化MMD来减少中间特征表示之间的距离,将源模型的知识转移到目标模型中,从而获得更好的特征表示,提高模型的泛化能力。
对于源域数据
x
s
∼
D
S
x_s\sim\mathbb{D}_S
xs∼DS,可得到特征表示
h
s
=
E
s
(
x
s
)
h_s=E_s(x_s)
hs=Es(xs)和
h
t
^
=
E
t
(
x
s
)
\hat{h_t} = E_t(x_s)
ht^=Et(xs)。
令
H
S
=
{
(
h
s
i
)
}
i
=
1
n
∼
H
s
,
H
T
=
{
(
h
t
i
)
}
i
=
1
n
∼
H
t
H_S=\{(h^i_s)\}^n_{i=1}\sim \mathbb{H}_s, \ H_T=\{(h^i_t)\}^n_{i=1}\sim \mathbb{H}_t
HS={(hsi)}i=1n∼Hs, HT={(hti)}i=1n∼Ht。因此,特征分布
H
s
\mathbb{H}_s
Hs和
H
t
\mathbb{H}_t
Ht之间的距离可定义为:
那么,中间相似约束(ISC)可表示为:
其中,特征映射
ϕ
(
⋅
)
:
X
→
H
\phi(\cdot):\mathcal{X} \rightarrow \mathcal{H}
ϕ(⋅):X→H对应于一个正半确定核
k
k
k,使得
k
(
u
,
v
)
=
⟨
ϕ
(
u
)
,
ϕ
(
v
)
⟩
H
k(u,v)=\langle \phi(u),\phi(v) \rangle_\mathcal{H}
k(u,v)=⟨ϕ(u),ϕ(v)⟩H。
核函数
k
(
u
,
v
)
=
∑
i
=
1
m
e
x
p
{
−
1
2
δ
i
∣
∣
u
−
v
∣
∣
2
2
}
k(u,v)=\sum_{i=1}^m exp\{-\frac{1}{2\delta_i}||u-v||_2^2\}
k(u,v)=∑i=1mexp{−2δi1∣∣u−v∣∣22}。
3.2.2 基于知识蒸馏的最终分类概率相似度约束(FSC)
训练后的分类器将接收特征表示并将其映射到分类逻辑中进行判断。传统的训练方法直接以单热编码标签为目标,在重复训练时容易产生过拟合。为了解决这个问题,我们利用知识蒸馏(KD)来控制知识转移的程度,通过产生一个更软的概率分布。
与硬标签只关注最大概率的标签值不同,软标签通过多个概率值来描述概率分布,可以更好地处理噪声和不确定性。此外,它还包含了不同类之间的相关信息,这有助于增加类间距离,从而减少类内距离。
对于特征表示 h s h_s hs和 h t ^ \hat{h_t} ht^,训练后的分类器 C s C_s Cs将它们分别映射到分类概率 p s = C s ( h s ) p_s=C_s(h_s) ps=Cs(hs)和 p t ^ = C s ( h t ^ ) \hat{p_t}=C_s(\hat{h_t}) pt^=Cs(ht^),利用知识蒸馏(KD),得到更软的分类概率 P = σ ( p s / T ) P=\sigma(p_s/T) P=σ(ps/T)和 Q = σ ( p ^ t / T ) Q=\sigma(\hat{p}_t/T) Q=σ(p^t/T)。
因此,基于知识蒸馏的最终分类概率相似度约束(FSC)可表示为
P
P
P和
Q
Q
Q之间的
K
L
KL
KL散度:
3.3 含有面向模型的知识适应的对抗领域适应
为了通过面向模型的知识自适应弥补对抗性领域自适应在判别知识中的不足,我们提出了Moka-ADA,保证了领域不变知识和判别知识都被充分学习。
图2说明了我们提出的模型的总体框架,它由三个步骤组成。
步骤1:在源数据上监督训练源编码器
E
s
E_s
Es和分类器
C
s
C_s
Cs。
步骤2:对抗性训练目标编码器
E
t
E_t
Et和鉴别器
C
d
C_d
Cd以对齐源和目标域分布。
步骤3:对目标数据进行训练后的目标编码器
E
t
E_t
Et和分类器
C
s
C_s
Cs的推断。
Step 1: 目标是使用来自源域的标记数据来训练一个性能良好的源模型,该模型充当目标模型后续训练的“老师”。通过使用交叉熵损失(Cross-Entropy loss)对源编码器
E
s
E_s
Es和分类器
C
s
C_s
Cs在
(
x
s
,
y
s
)
(x_s, y_s)
(xs,ys)上进行监督训练,源误差可以最小化:
然后,冻结源编码器参数,固定源域特征分布。在对抗训练之前,我们首先用源编码器权值初始化目标编码器权值,因为这种做法可以提高收敛性。
Step 2: 鉴别器
C
d
C_d
Cd旨在推断样本的域概率
q
s
q_s
qs或
q
t
q_t
qt。因此鉴别器的优化目标为:
其中,
为了对目标编码器
E
t
E_t
Et进行逆向训练,我们鼓励通过反转域标签来欺骗鉴别器
C
d
C_d
Cd。因此目标编码器
E
t
E_t
Et要进行如下优化:
结合公式(2)、公式(3)和公式(8),可以将训练目标编码器
E
t
E_t
Et的最终目标函数定义为:
Step 3: 我们最终可以使用训练好的目标编码器
E
t
E_t
Et和分类器
C
s
C_s
Cs对用于测试的目标数据进行推断,其情感极性标签可以预测如下:
算法流程:
实验