原文链接
本文发表于自然语言处理领域顶级会议 ACL 2018
摘要
通用的词语embedding是在大规模语料下训练出来的具有通用性的特点,但在特定领域表现欠佳,而特定领域的词语embedding仅在特定领域能够使用,欠缺通用性。本文提出了一种兼具通用性和领域性的词语embedding方式,实验效果不错。
模型
设矩阵
WDS∈R|VDS|×d1
W
D
S
∈
R
|
V
D
S
|
×
d
1
的每一列都是特定领域的词语的embedding向量,令
wi,DS
w
i
,
D
S
为
DS
D
S
中词语
i
i
的embedding,其中 是该领域词语的集合,
d1
d
1
是词向量的维度。类似的,我们设
WG∈R|VG|×d2
W
G
∈
R
|
V
G
|
×
d
2
为通用词语向量组成的矩阵。设
V⋂=VDS⋂VG
V
⋂
=
V
D
S
⋂
V
G
, 令
wi,G
w
i
,
G
为
V⋂
V
⋂
中词语
i
i
的embedding。令 和
ϕG
ϕ
G
分别为
wi,DS
w
i
,
D
S
和
wi,G
w
i
,
G
的映射矩阵,我们进行如下映射:
这样我们就可以通过去使 w⎯⎯⎯⎯i,DS w ¯ i , D S 与 w⎯⎯⎯⎯i,G w ¯ i , G 相关度最大,从而列式计算出 ϕDS ϕ D S 和 ϕG ϕ G 来,本文把这种操作称之为CCA,公式如下所示:
其中 ρ ρ 为 ϕDS ϕ D S 和 ϕG ϕ G 的相关度, E E 为 中所有单词的期望。
(两条横线之间的这一段先别看,原文没太看懂)
(
两
条
横
线
之
间
的
这
一
段
先
别
看
,
原
文
没
太
看
懂
)
第
d
d
个维度的CCA可以被递归地求出来:假设我们已经求出来了前 个维度,那么第
d
d
个维度可以通过求解使相关函数最大的变量来得出(约束条件为第 个维度与前
d−1
d
−
1
个维度不相关),设
ΦDS∈Rd1∗d
Φ
D
S
∈
R
d
1
∗
d
和
ΦG∈Rd2∗d
Φ
G
∈
R
d
2
∗
d
为
WDS
W
D
S
和
WG
W
G
中向量的映射的集合,其中
d<=min{d1,d2}
d
<=
m
i
n
{
d
1
,
d
2
}
单词的最终embedding表示由
ŵ i,DA=αw⎯⎯⎯⎯i,DS+βw⎯⎯⎯⎯i,G
w
^
i
,
D
A
=
α
w
¯
i
,
D
S
+
β
w
¯
i
,
G
得出,其中
α
α
和
β
β
通过解如下优化问题得出:
解得
α=β=12
α
=
β
=
1
2
,于是我们得出:
由于 w⎯⎯⎯⎯i,DS=wi,DSϕDS w ¯ i , D S = w i , D S ϕ D S 和 w⎯⎯⎯⎯i,G=wi,GϕG w ¯ i , G = w i , G ϕ G ,这是一个线性的关系,这样一来公式(2)就可能就无法求得最佳的 w⎯⎯⎯⎯i,DS w ¯ i , D S 和 w⎯⎯⎯⎯i,G w ¯ i , G ,因为 wi,DS w i , D S 和 w⎯⎯⎯⎯i,DS w ¯ i , D S 以及 w⎯⎯⎯⎯i,G w ¯ i , G 和 wi,G w i , G 可能不是一个简单的线性关系。
为了避免这种情况,本文使用核函数将最初的输入数据映射到高维空间之后再采用CCA方法求解,本文采用的核函数为: