跨语言词嵌入无监督词典推断论文笔记Bilingual Lexicon Induction with Semi-supervision in Non-Isometric Embedding Spaces

论文地址
代码

背景

目前的双语词典推断任务(bilingual lexicon induction BLI)主要分为弱监督方法和无监督方法两类,这两类方法都是基于这样一个假设:embedding空间具有相似性(isometry),因此他们的目标就是将预先训练的不同语言的embedding映射到共同的语义空间中(大多是线性转移矩阵),然后通过K-NN算法来进行词典推断,也就是找到互译对。

目前的弱监督方法一般都是利用一个种子词典 D = { x i , y i } i ∈ { 1 , n } D=\{x_i,y_i\}_{i \in \{1,n\}} D={xi,yi}i{1,n}来作为映射锚点(anchor),然后学习一个转移矩阵 W W W,使得 W X WX WX Y Y Y这两个空间尽可能相近,,也就是优化如下目标函数:
在这里插入图片描述
其中, X X X是源语空间, Y Y Y是目标语空间, W ∈ d × d , X 、 Y ∈ d × n W \in d \times d, X、Y \in d \times n Wd×dXYd×n,这个优化的过程我称为迭代阶段。在得到 W W W以后,对于任意一个单词 x x x,通过 W x Wx Wx将其映射到空间 Y Y Y中,然后利用K-NN算法找到该点的最近邻的点 y y y,于是 y y y就是 x x x的互译词。
无监督方法的套路和弱监督差不多,多了一个初始化阶段——利用各种方法(GAN、其它假设)得到一个初始化的词典D,然后进入迭代阶段——在D的基础上进行同弱监督一样的优化步骤。

在这篇论文中,作者认为embedding空间具有相似性的假设不一定成立,于是提出利用Gromov Hausdorff (GH) distance来度量这种相似性程度,通过实验证明了这个假设在distant pair(比如en-zh)上是比较弱的,然后提出了自己的弱监督方法——BLISS,该方法联合了现有的弱监督和无监督方法,通过共同优化两者的loss来提高性能。

度量空间相似性

对空间相似性的度量,前人已经做过类似的工作On the Limitations of Unsupervised Bilingual Dictionary Induction,这篇论文用的是另外一种方法——GH distance。
给定两个空间 X , Y X,Y XY和距离计算函数 d ( . , . ) d(.,.) d(.,.),GH距离定义为:
在这里插入图片描述
sup表示的是上界,inf表示的是下界,本质上GH计算的就两个空间中的点之间最小距离中的最大值,详细原理见GH

由于整个embedding空间较大,通常是数十万的点,GH计算起来代价太大,因此在实验中他是用embedding中频率较高的前5k个点去估计。
度量空间相似性有挺多方法,理论上的计算代价都比较大,具体工程实现上都是去近似估计,感觉比较玄学,见仁见智,不多说,看结果。
在这里插入图片描述
最后两列是相关性系数, Λ \Lambda Λ 是上述提到的论文中的度量方法。

BLISS

分析

作者提出这个方法的motivation是纯弱监督和纯无监督方法都具有一定的缺点。
纯弱监督只利用了对齐的种子词典,没有利用到蕴含在embedding space中的信息(原话:just use words in an aligned bilingual dictionary and do not utilize the rich information present in the topology of the embeddings’ space)。怎么理解?现在无监督的方法是利用对齐的种子词典来学习 W W W,本质上是用种子词典对齐词空间的映射矩阵来代替整个空间的映射矩阵,如果两个embedding空间是完全几何相似的,那这样做是没什么问题的,但是实际上并不是完全相似,尤其是那些假设比较弱的语言对,只利用种子词典学到的 W W W来代替整个空间的 W W W还是会有一些问题,所以最好还要同时利用上整个embedding space。

纯无监督的方法缺点作者主要是从全局对齐和局部对齐的角度来说明问题。他经过试验发现,许多没有对齐的词是找到了那些相似或者说是同类(clusters)的词,作者认为虽然整体上已经对齐了,但是局部上有些词只对齐到了同一个cluster中,还没精确对齐到互译词上。如下图中b和c上下两块绿色和红色(a经过映射得到c)。
在这里插入图片描述【】
情况就如上图的例子,对齐到了同类词,其实这个比较好理解,因为embedding本身就是基于 “相同上下文的词相近”的假设,同一类的词embedding是比较相似的,所以比较容易对错,对于这个问题作者认为可以通过在这些cluster内部添加锚点得到解决。说白了就是需要添加一些监督信号来进行引导学习,这样 W W W才能学得更好。

方法

作者通过分析两种方法的缺点最后想表达的意思就是:要把两种方法结合起来,怎么结合?把两种方法的loss加起来共同优化,就是这么简单……
BLISS的loss有三部分,无监督的方法是基于GAN,这篇论文WORD TRANSLATION WITHOUT PARALLEL DATA
在这里插入图片描述
其中,
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
f s 和 f a f_s和f_a fsfa是相似性计算函数
(3)是GAN的loss,直接从整个embedding空间中学 W W W,(4)是弱监督的loss,从种子词典中学习 W W W,(5)是为了保证 W W W是正交矩阵,这样的映射可以保持源语空间的性质(正交变换的不变性)。通过联合优化这三个loss,可以让模型即考虑了整个embedding空间,也考虑了种子词典,还考虑了正交的限制,这样会学得一个更加平滑或者说更加平衡的W。其实ideal并没有什么创新,都是前人的工作。 (逃

这样优化完以后进入同MUSE(论文Word Translation Without Parallel Data中的方法)一样的迭代阶段。在推断阶段,映射到同一空间后,一般是通过找到最近邻点(KNN)来找到互译词,但是会存在hub问题(某些点是很多点的最近邻,有些点不是任何点的最近邻),MUSE中提出csls来缓解这个问题,作者也用了这种方法,但是同时他还过滤了目标端一些太过hub的点(是太多点的近邻),也算是一个trick吧。

方法评价

以下是我个人的看法。
从无监督的角度来说,作者提出的这个方法其实是改进了无监督方法的初始化阶段,无监督方法的最大问题我认为其实是初始化不鲁棒的问题,像GAN在相似语种上确实表现良好,但在很多distant pair上初始化得到的词典D正确率几乎都为0,因为distant pair的假设太弱,导致GAN容易陷入局部最优,所以作者就通过添加一些监督信号来避免这个问题,使得初始化更加鲁棒,从而得到一个性能良好的初始化词典D。

从弱监督角度来说,之前的弱监督都是直接用种子词典进行迭代,而作者这么做其实为弱监督增加了一个初始化的阶段,我现在不用种子词典去迭代,而用初始化得到的词典去迭代,有什么好处?从论文Word Translation Without Parallel Data表1的结果我们可以看到有些语言的无监督的方法甚至比弱监督还高,是不是挺意外,作者在4.2 ——Refinement: closing the gap with supervised approaches中进行了分析,原因可能是因为弱监督方法限制了种子词典的大小(论文实验中是用了5k个),无监督方法得到的初始化词典D虽然正确率不如种子词典,但是它大,可以为迭代阶段提供了更多的锚点,这就增加了迭代阶段用到的信息,感觉上有点类似分析中提到的弱监督方法缺点背后的道理。

最后的实验结果自己去看论文吧,感兴趣还可以跑跑他的代码,链接在下面
论文
代码

觉得写得还可以请点个赞 : )

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值