基于双向注意模型的跨语言句子检索中的零样本语言转换

该模型结合双向注意层和句子内注意机制,实现跨语言句子检索,尤其在零样本语言转移中表现出优势,无需平行数据即可对未见过的语言对进行检索。相比无监督基线,性能提升并能处理资源贫乏的语言对。
摘要由CSDN通过智能技术生成

基于双向注意模型的跨语言句子检索中的零样本语言转换

所提出的模型结合了具有双向注意层和句子内注意机制的递归序列编码器。这样,每个训练句子对中最终的固定大小句子表示 取决于从其他句子中选择上下文化的标记表示。然后使用双线性乘积函数组合两个句子的表示,以预测相关性得分。我们表明,结合共享的多语言单词嵌入空间,所提出的模型大大优于无监督的跨语言排名功能,并且可以通过结合两种方法来实现进一步的提升。最重要的是,我们证明了该模型在零样本语言转移设置中的有效性:我们的多语言框架无需任何培训实例,就可以针对看不见的语言对提高跨语言句子检索性能。这也使得对资源贫乏的语言对也可以进行健壮的跨语言句子检索,而无需任何并行数据。

通常,有三种不同的CLIR方法。
首先,使用字典或全面的机器翻译(MT)将查询和/或文档翻译为相同的语言,即可使用单语检索模型。
其次,可以通过在外部多语言知识源(例如Wikipedia或BabelNet)中扎根查询和文档来克服词汇鸿沟。
最终,其他系统引入了共享的跨语言语义空间(例如,基于双语单词嵌入),并将查询和文档表示为共享空间中的向量。(这三种方式都有可参考的文档)注意:有时间要读一下这些罗列的参考文档
但是每种方式都有它的缺点,比如利用机器翻译的方式的话需要大量的平行语料;而没有显示在知识库中的概念则会被跨语言检索系统忽略;而基于同一语义空间的方式则需要平行或者可比语料把他们诱导入同一语义空间。
由于排序功能可以利用的文本数量较少,因此传统上认为句子检索比标准文档级检索更具挑战性。跨语言句子检索通常等于在大型文本集中识别平行句子:所谓的队友检索任务(有可参考的文档),这有利于为MT模型训练构建高质量的句子对齐数据。为此,至关重要的是将精确的翻译对与仅在语义上相关的句子对区分开。这就是为什么利用粗糙粒度表示法(例如通过引入潜在主题或通过聚合词嵌入)的CLIR模型不适合建模上述此类细微差别的原因。
因此我们提出了一种用于跨语言句子检索的神经体系结构,该体系结构捕获了不同语言中的句子之间的细粒度语义依赖性,并从相关句子中区分出真实的句子翻译对。(BiCLA)
BiCLA模型:首先,联合的多语言单词嵌入空间与在两种语言之间共享的循环编码器耦合,这使两种语言中的单词序列的单词表示能够进行上下文化。此外,借助于堆叠在共享编码器顶部的双向注意机制来实现选择性的跨句上下文。注意力层使模型能够为其他句子的相关信息段分配更多权重。然后,通过句内注意机制将跨句向量化表示聚合为固定大小的句子向量。最后,该模型通过计算这些固定大小的句子表示之间的双线性乘积来预测句子对的排名得分。
最重要的是,我们证明了该模型在零样本语言转移中的有效性:针对一个语言对(例如德语和英语)在平行数据上训练的模型成功地对另一种语言对(例如捷克语和匈牙利语)执行了CLIR。最后,我们观察到,所提出的双向注意力模型结合了最新的无监督CLIR基线:通过整合模型,可以进一

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值