1. Motivation
跨语言文本分类(CLTC)是一项具有挑战性的任务,由于缺乏低资源语言中的标记数据,因此变得更加困难。在文中,作者提出了零目标实例加权,一个通用的模型无关的零目标学习框架,通过利用源实例加权来改进CLTC。它在预先训练过的语言模型上添加了一个模块,用于实例权重的相似性计算,从而将每个源实例与目标语言对齐。在训练过程中,该框架利用由实例权重加权的梯度下降来更新参数。
2. Contribution
- 引入了零目标实例加权,这是一个简单但有效的、可扩展的框架,以支持零目标CLTC的实例加权迁移学习。
- 本文提出的方法在具有7个 不同语言的三个跨语言分类任务上进行评估,结果表明,该方法在单源传输中提高了4%,在多源传输中提高了8%,为利用未标记数据的知识确定了一个有前途的方向
3. Method
zero-shot的CLTC框架如上图所示。源语言输入和目标语言输入分别为
x
s
x_s
xs和
x
t
x_t
xt,在训练期间,只有源标签
y
s
y_s
ys可用,其任务是预测目标标签
y
t
y_t
yt。首先应用预先训练好的模型作为编码器对输入进行编码,编码后的表示用
h
s
h_s
hs和
h
t
h_t
ht表示。该图说明了小批处理中每种语言的四个实例。然后有一个实例加权模块,通过考虑隐藏的表示
h
s
h_s
hs和
h
t
h_t
ht来为源语言实例赋权重。
3.1 Instance Weighting-based Gradient Descent
Vanilla小批量梯度下降法的定义为:
θ
←
θ
−
α
∑
i
=
1
k
▽
θ
f
(
y
i
,
g
θ
(
x
i
)
)
(
1
)
\theta \leftarrow \theta - \alpha \sum_{i=1}^k \triangledown_\theta f(y_i,g_\theta(x_i))(1)
θ←θ−αi=1∑k▽θf(yi,gθ(xi))(1)
其中
α
\alpha
α为学习速率,
θ
\theta
θ为要更新的参数,
g
θ
(
x
i
)
g_\theta(x_i)
gθ(xi)为
x
i
x_i
xi的模型预测,
▽
θ
\triangledown \theta
▽θ为偏导数,
f
(
⋅
)
f(·)
f(⋅)为损失函数。修改公式,以包括实例的权重:
θ
←
θ
−
α
∑
i
=
1
k
w
i
⋅
▽
θ
f
(
y
i
,
g
θ
(
x
i
)
)
(
2
)
\theta \leftarrow \theta - \alpha \sum_{i=1}^k w_i·\triangledown_\theta f(y_i,g_\theta(x_i)) (2)
θ←θ−αi=1∑kwi⋅▽θf(yi,gθ(xi))(2)
为一个小批中的每个实例分配一个权重
w
i
w_i
wi,并且有一个小批中所有实例的梯度的加权和,然后更新参数
θ
\theta
θ。它可以很容易地扩展到多种源语言,在这种情况下,
x
s
x_s
xs可能是来自多个语言的训练样本。
3.2 Unsupervised Weighting Metrics
每个批处理,为了获得每个源实例
i
i
i的权重
w
i
w_i
wi,作者遵循基于相似度的方法,定义了一个评分函数来计算当前源实例表示
h
i
h_i
hi和目标实例表示
h
j
h_j
hj之间的分数。然后,对这批
D
t
D_t
Dt中的目标实例集进行一个总和,作为源实例
i
i
i的最终分数。对于
i
∈
D
s
i∈D_s
i∈Ds:
w
i
=
s
c
o
r
e
(
i
,
D
t
)
=
∑
j
∈
D
t
s
c
o
r
e
(
i
,
j
)
w_i=score(i,D_t)=\sum_{j∈D_t}score(i,j)
wi=score(i,Dt)=j∈Dt∑score(i,j)
对这批中的每个
w
i
w_i
wi进行规范化,以确保和是1,它们被插入公示2中。
多种方法来定义评分函数评分
(
i
,
j
)
(i,j)
(i,j),余弦评分函数表现最好,因此作者没有使用Euclidean Distance和CORAL Function,在主要实验中报告余弦函数,基于cos弦相似度的评分函数定义为:
s
c
o
r
e
(
i
,
j
)
=
1
2
(
h
i
⋅
h
j
∣
∣
h
i
∣
∣
∣
∣
h
j
∣
∣
+
1
)
score(i,j)=\frac{1}{2}(\frac{h_i·h_j}{||h_i|| ||h_j||}+1)
score(i,j)=21(∣∣hi∣∣∣∣hj∣∣hi⋅hj+1)
4. Experiment
在意见目标提取、文档分类和情绪分类三个任务中,由于选择了预先训练好的模型,两种基础模型对所有语言都取得了较好的结果。实例加权对几乎所有的目标语言都比基本模型产生了一致的改进。
- 最佳模型XLMR+IW平均比最佳基线高出4.65%,在俄语上比XLMR提高了4%,在其他目标语言上也大幅提高;
- XLMR+IW的表现超过了基线,并稳步超过了XLMR,在俄罗斯,中国和西班牙方面有令人印象深刻的增长。
- 最佳模型在大多数情况下都显示出相同的趋势。虽然本文方法与模型无关,可以看到从mBERT切换到XLMR所获得的改进结果看出,但当基本模型或嵌入得到改进时,实例加权仍然会有帮助。
- 考虑到这些观察结果,该框架很简单,但也很有效。最重要的是,它不需要额外的外部数据,并且很容易适应于任何深度模型。
- 通过轻松地扩展到多源语言培训,在所有目标语言中都得到了显著的提升。具体来说,俄语提高了8.1%。
- 通过易于适应,展示了可扩展性和多语言迁移在零射击学习中是一个很有前途的方向。