跨语言词嵌入模型调研报告

作者:王小草

 

1. 跨语言词嵌入介绍__ 3

1.0前言__ 3

1.1 what? 3

1.2 why? 3

1.3 how? 3

1.3.1 how to achieve? 3

1.3.1 how to evaluate? 3

2. 跨语言词嵌入实现方法的分类方式说明__ 4

3. 跨语言词嵌入实现方法详细介绍__ 4

3.1 词对齐+并行数据__ 4

3.1.1 基于映射的方法__ 4

3.1.1.1 Regression method_ 5

3.1.1.2 Canonical method_ 6

3.1.1.3 Orthogonal method_ 7

3.1.1.4 Margin method_ 7

3.1.2 基于伪双语语料的方法__ 7

3.1.3 联合方法__ 8

3.2 词对齐+相似数据__ 8

3.2.1 使用图像空间作为跨语言共享空间__ 8

3.2.2 使用相似的特征__ 8

3.3 句子对齐+并行数据__ 9

3.3.1 基于词对齐的矩阵分解方法__ 9

3.3.2 句子成分模型__ 9

3.3.3 双语言自动编码模型__ 10

3.3.4 双语言skim-gram模型__ 11

3.3.5其他__ 12

3.4 句子对齐+相似数据__ 12

3.5 文章对齐+相似句子__ 12

3.5.1 基于伪语料__ 12

3.5.2 基于概念与主题__ 12

3.5.3 句子对齐的扩展__ 12

4. 跨语言词嵌入的评估任务__ 13

4.1 词相似性Word similarity_ 13

4.2 multiQVEC/multiQVEC+_ 14

4.3 Word alignment prediction_ 14

4.4 Features for cross-lingual transfer 15

4.5 Information retrieval 15

4.6 word analogies 15

5. 跨语言词嵌入比较__ 17

5.1 文献一__ 17

5.1.1 比较的背景__ 17

5.1.2 比较的结果__ 18

5.1.2.1 单语言评估__ 18

5.1.2.2 Cross-lingual Dictionary Induction_ 19

5.1.2.3 Cross-lingual Document Classification_ 19

5.1.2.4 Cross-lingual Dependency Parsing_ 20

5.2 文献二__ 21

5.2.1 比较的背景__ 21

5.2.2 比较的结果__ 22

 

 

1. 跨语言词嵌入介绍

1.0前言

本文内容主要来源于文献【A survey of cross-lingual word embedding models】,并对文献内容进行归纳、整理与扩展。对跨语言词词嵌入的研究进行分类阐述,并且对常用评估方法进行列举与描述。最后根据2篇文献对主流的研究方案在不同数据集上进行了比较。

 

本文的目的不是让读者对文献的方法进行透彻理解,而是做一个基础的引导,使读者对跨语言词嵌入的研究有一个全局的了解,在有需要的时候根据相应文献针对性地进行阅读与学习。

1.1 what?

跨语言词嵌入(cross-lingual word embedding)是指将不同语言的词嵌入到同一个词向量空间中,使得含义一样的却来自不同语言的词具有相同的向量表征。

1.2 why?

实现跨语言的词嵌入目前主要有三大优势:

第一:使得可以在多语言的上下文中推理单词的含义。

第二:使得可以在多语言之间进行知识迁移,数据量少的语言可以通过数据量多的语言的知识实现更好的模型表现。(比如自动文本摘要生成任务,存在公开的英文数据集,但中文数据集却无处可觅,利用跨语言的词嵌入向量,可以解决中文训练数据少的问题)

第三:使得训练一个通用于所有语言的模型成为可能(比如只需要训练一个parsing model就能应用于所有语言的parsing task)

1.3 how?

1.3.1 how to achieve?

如何实现跨语言的词嵌入呢?历史自然绵长,本文不于追溯。在此,重点关注的是2012年及以后的相关研究与实现方法,这些近年文献中的研究方法取得了比早期方法更好的表现,也更适用于业务场景的应用和后期的改善与扩展。

 

对跨语言词嵌入的方法进行归类,分类的标准参考Sebastian Ruder.et (2017) 的文献综述。Sebastian Ruder研究发现跨语言词嵌入的效果好坏,主要是取决于对于数据的不同要求,而不是模型的结构,因此分类的标准不是按照模型的类型,而是按照所采用的数据要求的类型。

 

数据的要求可以从两个维度上分类:

第一个维度:对齐的方式。可以分为:按词对齐、按句子对齐与按文章对齐

第二个维度:对齐词句的相似性程度。可以分为:并行数据与相似数据

对以上概念理解不明确的话稍安勿躁,下文(section 2)将分别阐述这两个维度的含义,并且section3会按照这两个维度去分别详细讲述相关文献中的方法。

1.3.1 how to evaluate?

如何评估实现的跨语言词嵌入模型的效果呢?主流的方法有以下这些:

  1. word similarity
  2. multiQVEC/multiQVEC+
  3. Word alignment prediction
  4. Bilingual dictionary induction
  5. Features for cross-lingual transfer
  6. Information retrieval
  7. Multi-modal and cognitive approaches to evaluation

 

本文也将详细讲述这些评估方法,以及比较不同的实现方法在这些评估指标上的表现,从而对于目前的跨语言词嵌入有一个全局的了解,并针对性地在业务中进应用。

 

2. 跨语言词嵌入实现方法的分类方式说明

下表是两类分类标准交叉形成的5大类别,其中按文章对齐很难有也没有出现过并行数据。

 

并行数据 (parallel data) 是指两类语言对应的数据(词、句子)是通过确切的翻译得到的,是肯定一一对应的。相似数据 (comparability data) 是指两个语言的对应数据 (词、句子或文章) 是在某方面的近似而已。

 

对齐方式,顾名思义,就是不同语言数据之间对齐的粒度,分别是词、句子与文章。

 

             数据类型

对齐方式

 

并行数据

 

相似数据

 

按词对齐

通过翻译得到的双语言或跨语言的词典(使用广泛)

比如相似图片的不同语言的描述(数据挺多,但使用较少)

 

按句子对齐

翻译得到的句子对,或者用于训练翻译模型的句子对

比如相同图片不同语言的句子级描述(并非通过直接翻译得到)

 

按文章对齐

NA

  • 9
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值