作者:王小草
4.3 Word alignment prediction_ 14
4.4 Features for cross-lingual transfer 15
5.1.2.2 Cross-lingual Dictionary Induction_ 19
5.1.2.3 Cross-lingual Document Classification_ 19
5.1.2.4 Cross-lingual Dependency Parsing_ 20
1. 跨语言词嵌入介绍
1.0前言
本文内容主要来源于文献【A survey of cross-lingual word embedding models】,并对文献内容进行归纳、整理与扩展。对跨语言词词嵌入的研究进行分类阐述,并且对常用评估方法进行列举与描述。最后根据2篇文献对主流的研究方案在不同数据集上进行了比较。
本文的目的不是让读者对文献的方法进行透彻理解,而是做一个基础的引导,使读者对跨语言词嵌入的研究有一个全局的了解,在有需要的时候根据相应文献针对性地进行阅读与学习。
1.1 what?
跨语言词嵌入(cross-lingual word embedding)是指将不同语言的词嵌入到同一个词向量空间中,使得含义一样的却来自不同语言的词具有相同的向量表征。
1.2 why?
实现跨语言的词嵌入目前主要有三大优势:
第一:使得可以在多语言的上下文中推理单词的含义。
第二:使得可以在多语言之间进行知识迁移,数据量少的语言可以通过数据量多的语言的知识实现更好的模型表现。(比如自动文本摘要生成任务,存在公开的英文数据集,但中文数据集却无处可觅,利用跨语言的词嵌入向量,可以解决中文训练数据少的问题)
第三:使得训练一个通用于所有语言的模型成为可能(比如只需要训练一个parsing model就能应用于所有语言的parsing task)
1.3 how?
如何实现跨语言的词嵌入呢?历史自然绵长,本文不于追溯。在此,重点关注的是2012年及以后的相关研究与实现方法,这些近年文献中的研究方法取得了比早期方法更好的表现,也更适用于业务场景的应用和后期的改善与扩展。
对跨语言词嵌入的方法进行归类,分类的标准参考Sebastian Ruder.et (2017) 的文献综述。Sebastian Ruder研究发现跨语言词嵌入的效果好坏,主要是取决于对于数据的不同要求,而不是模型的结构,因此分类的标准不是按照模型的类型,而是按照所采用的数据要求的类型。
数据的要求可以从两个维度上分类:
第一个维度:对齐的方式。可以分为:按词对齐、按句子对齐与按文章对齐
第二个维度:对齐词句的相似性程度。可以分为:并行数据与相似数据
对以上概念理解不明确的话稍安勿躁,下文(section 2)将分别阐述这两个维度的含义,并且section3会按照这两个维度去分别详细讲述相关文献中的方法。
如何评估实现的跨语言词嵌入模型的效果呢?主流的方法有以下这些:
- word similarity
- multiQVEC/multiQVEC+
- Word alignment prediction
- Bilingual dictionary induction
- Features for cross-lingual transfer
- Information retrieval
- Multi-modal and cognitive approaches to evaluation
本文也将详细讲述这些评估方法,以及比较不同的实现方法在这些评估指标上的表现,从而对于目前的跨语言词嵌入有一个全局的了解,并针对性地在业务中进应用。
2. 跨语言词嵌入实现方法的分类方式说明
下表是两类分类标准交叉形成的5大类别,其中按文章对齐很难有也没有出现过并行数据。
并行数据 (parallel data) 是指两类语言对应的数据(词、句子)是通过确切的翻译得到的,是肯定一一对应的。相似数据 (comparability data) 是指两个语言的对应数据 (词、句子或文章) 是在某方面的近似而已。
对齐方式,顾名思义,就是不同语言数据之间对齐的粒度,分别是词、句子与文章。
数据类型 对齐方式 |
并行数据 |
相似数据 |
按词对齐 |
通过翻译得到的双语言或跨语言的词典(使用广泛) |
比如相似图片的不同语言的描述(数据挺多,但使用较少) |
按句子对齐 |
翻译得到的句子对,或者用于训练翻译模型的句子对 |
比如相同图片不同语言的句子级描述(并非通过直接翻译得到) |
按文章对齐 |
NA |