Artetxe - 有监督双语词嵌入Learning principled bilingual mappings of word embeddings

Learning principled bilingual mappings of word embeddings while preserving monolingual invariance

这是2016年ACL的一篇文章,文中通过有监督的方法提出了一个学习双语单词嵌入的通用框架,不好理解,有时间再仔细看。

文章链接:

Learning principled bilingual mappings of word embeddings while preserving monolingual invariance

论文点

摘要

将不同语言的单词嵌入映射到单个空间中具有多个应用程序。 为了从源空间映射到目标空间,一种常见的方法是学习一种线性映射,该映射可以最大程度地减少双语词典中列出的对等之间的距离。在本文中,我们提出了一个框架,该框架可以概括以前的工作,提供了一种有效的精确方法来学习最佳的线性变换,并在翻译归纳中产生最佳的双语结果,同时在类比任务中保留了单语的性能。

引言

在本文中,我们提出了一个学习双语单词嵌入的通用框架。我们从一个基本的优化目标开始,并介绍了一些有意义的,直观的约束,这些约束与先前提出的方法等效或紧密相关。我们的框架提供了双语单词嵌入映射的更一般视图,显示了现有方法,揭示了它们在理论上的合理性缺陷,并为它们提供了另一种理论解释。我们对现有英语-意大利语单词翻译归纳法和英语单词类比任务的实验提供了有力的经验证据,有利于我们的理论推理,同时表明我们的模型之一明显优于以前的替代方法。

Learning bilingual mappings

让X和Z表示给定双语词典的两种语言中的单词嵌入矩阵,这样它们的第i行X_i和Z_i就是字典中第i项的单词嵌入。我们的目标是找到一个线性变换矩阵W使得XW最接近Z。我们形式化地最小化欧氏距离的平方和:
在这里插入图片描述
或者,这相当于最小化剩余矩阵的(平方)Frobenius范数:
在这里插入图片描述
因此,W将是线性矩阵方程XW = Z的所谓最小二乘解。这是线性代数中的一个众所周知的问题,可以通过SVD计算。

Orthogonality for monolingual invariance(单语不变正交性)

需要使用单语不变性来保留映射后的点积,避免单语任务的性能下降(例如,类比)。可以要求W为正交矩阵(W ^T W = I)来获得。 W = V U ^T给出了在这种正交性约束下的精确解, 其中Z^ T X =UΣVT是Z^T X的SVD因式分解(请参阅附录A)。因此,可以相对于词汇量在线性时间内有效地计算出最佳变换。请注意,正交性具有直观的属性,因此,避免退化的解并学习更好的双语映射可能很有用,如我们在第3节中的经验所示。

Length normalization for maximum cosine

将两种语言中的词嵌入标准化为单位向量可确保所有训练实例均对优化目标做出同等贡献。只要W是正交的,这等效于最大化字典项的余弦相似度之和,这通常用于相似度计算:
在这里插入图片描述
最后的优化目标与Xing等人一致,但他们的工作是由Mikolov等人的假设不一致引起的。学习词嵌入的优化目标使用点积,学习映射的目标使用欧几里得距离,而相似度计算使用余弦。 但是,事实是,只要W是正交的,优化长度归一化嵌入的欧几里德距离的平方等效于优化余弦,因此,Xing提出的映射目标等效于Mikolov在正交性约束和单位矢量的情况下使用的映射目标。 实际上,我们的实验表明,与Xing等人相反,正交性比长度归一化更重要, 他们引入正交性只是为了确保映射后保留单位长度。

Mean centering for maximum covariance

维度方向均值居中可以直觉地得出两个随机取入的单词在语义上不会相似的想法,从而确保两个随机嵌入在任何维度上的期望乘积以及其余弦相似度为零。
只要W是正交的,这等效于最大化字典条目的维度协方差之和:
在这里插入图片描述
这种等效性表明,Faruqui和Dyer提出的方法与我们的框架密切相关。 更具体地说,Faruqui和Dyer使用规范相关分析(CCA)将两种语言中的词嵌入投影到共享向量空间。CCA最大化2290两个投影的维度方向协方差(如果在我们的情况下将转换限制为正交,则等效于最大化单个投影的协方差),但为这两个映射添加了隐式限制,使得不同的维度具有 相同的方差并且彼此之间不相关。
在这里插入图片描述
因此,这两种方法之间唯一的根本区别是,尽管我们的模型强制使用单语不变性,但Faruqui和Dyer确实更改了单语嵌入以满足这一限制。在这方面,我们认为它们添加的限制可能会对双语映射的学习产生负面影响,并且还可能降低单语嵌入的质量。我们的实验(请参阅第3节)显示了支持该想法的经验证据。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值