EMNLP 2022 | RAPO: 基于自适应排序学习的双语词典归纳

RAPO 是一种基于自适应排序学习的双语词典归纳方法,它将双语词典归纳视为排序任务,通过个性化适配器和Householder投影改进映射函数。RAPO在保持词向量空间结构的同时,利用排序目标和正交变换提高翻译准确率,尤其在低资源语言对上表现突出。
摘要由CSDN通过智能技术生成

71cd7472bc590aa640b0b0067a3f87d2.gif

©PaperWeekly 原创 · 作者 | 李朝卓

单位 | 微软

研究方向 | 图挖掘、自然语言处理

803c7325e7428343b78a97870964b8a8.png

论文标题:

RAPO: An Adaptive Ranking Paradigm for Bilingual Lexicon Induction

收录会议:

EMNLP 2022

论文链接:

https://arxiv.org/abs/2210.09926

代码链接:

https://github.com/Jlfj345wf/RAPO

940f0860ee8654aee2782d246d3ef6b7.png

背景

双语词典归纳(BLI,Bilingual Lexicon Induction)指在缺少平行语料时,基于两种语言的单语语料进行单词翻译并生成双语词典。给定两组单语语料下训练得到的单语词向量(Word Embedding)以及数量很少的种子词典(seed dictionary),BLI 的核心是学习一个理想的映射函数,将这两组独立的单语词向量空间对齐到同一空间中,以便根据单词间词向量的相似性进行单词翻译。

基于不同语言间词向量空间的同构性假设 [1],以前的方法 [2] 往往使用线性变换作为映射函数来保持空间的同构关系,并在此基础上通过增加正交限制 [3]、正则化词向量 [4]、迭代扩充词典 [5] 等方式来提高单词翻译的准确率。

598f7a9537bf5ae110b4e8a1d633c5a8.png

动机

93d5523fa698f0072506848abd5e0139.png

▲ 图1:部分单词(英语与西班牙语)在词向量空间的映射关系

现有的方法在学习映射函数时,通常将学习目标设定为:最小化互为翻译的单词对的词向量之间的距离(例如图1中crow与cuervo)。例如,一类常见的方式是将映射函数看作投影矩阵 ,并且将训练目标定义为:(其中 与 为种子词典中两种语言的单词所对应的词向量矩阵)。

但实际上,我们认为 BLI 本质上是一个排序的问题,而不是上述训练目标定义的回归问题。因为 BLI 的目标是:对于每一个源语言中的词,寻找目标语言中置信度最高的 k 个候选词。也就是说,映射函数实际上应当具备辨别正确翻译与错误翻译之间的相对顺序的能力。以前的工作使用的目标函数只关注正例(互为翻译的单词对)之间的距离,没有明确地提供重要的排序信息,导致不能有效的提高模型的判别能力。

另外,现有工作一般通过一个所有单词共享的映射函数来对齐双语空间,因此,同一语言中的不同单词倾向于沿着相同方向变换。然而,从图 1 中我们可以发现,即使是英语和西班牙语这两种语系相近、词向量空间结构相似的语言,由于不同训练语料库中词频分布的偏差以及低频单词词向量的不充分训练,不同词的最优映射方向略有偏移 [6] [7]。因此,我们认为,如果能够自适应的为不同单词学习个性化的映射函数,那么单词翻译的准确度有可能进一步提高。

2d629465fc18cd4a5428c5363ee0d033.png

方法

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值