【论文】哈工大SCIR Lab | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用...

点击上方,选择星标置顶,每天给你送干货

阅读大概需要6分钟

跟随小博主,每天进步一丢丢

论文名称:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing

论文作者:王宇轩,车万翔,郭江,刘一佳,刘挺
原创作者:王宇轩
下载链接:https://www.aclweb.org/anthology/D19-1575/

出处:哈工大SCIR

1.简介

跨语言词向量对于跨语言迁移学习具有重要意义。本文提出一种简单快捷的离线跨语言BERT投射方法,该方法能够利用预训练好的BERT模型生成跨语言上下文相关词向量。我们在零样本跨语言依存分析任务中实验了这种词向量,取得了远超使用传统跨语言上下文无关词向量方法的目前最好结果。我们还将这种词向量与XLM(一种使用跨语言数据重新训练BERT的方法)进行了对比,实验表明在与该方法取得相近结果的情况下,我们的方法所需的训练数据和计算资源远少于XLM,同时训练速度也更快。

我们公布了代码和训练好的17种语言投射到英语的模型,使用这些模型可以快速将不同语言的BERT表示向量投射到同一语义空间中。

代码及模型路径为:

https://github.com/WangYuxuan93/CLBT

2.背景和动机

大部分现有的跨语言上下文相关词向量训练方法采用在线学习(On-Line Learning)策略,首先从头开始利用跨语言数据训练语言模型,之后从中抽取跨语言词向量。这种方法不但需要大量计算资源和跨语言数据,而且训练时会花费大量时间。

为了解决这一问题,我们提出跨语言BERT投射模型(Cross-Lingual BERT Transformation, CLBT),利用现有的预训练好的单语BERT模型,采用离线学习(Off-Line Learning)策略,训练一个从源语言到目标语言的线性映射,将不同的上下文相关词向量投射到同一语义空间中。由于在训练时利用了包含上下文的词对齐数据中的语义等价性,我们的方法能够维持词义信息不变。

如图1所示,西班牙语的BERT向量通过CLBT模型投射到英语的语义空间后,两种语言中具有相近语义的向量会更接近。

图1 CLBT模型示意图

3.方法

传统上下文无关的跨语言词向量学习方法一般只需要双语词典作为训练的监督信号。但在CLBT的训练过程中,需要包含上下文信息的词对齐数据,才能获得BERT的表示向量。因此我们使用无监督词对齐工具获得包含上下文的词对作为训练数据。

给定n个包含上下文信息词对,我们首先用预训练好的单语BERT模型获得它们的表示向量。训练目标为找到一个合适的线性映射W,使得经过其投射的源语言向量与其对应的目标语言向量距离最小:

W为正交矩阵时,其可以通过奇异值分解(SVD)求得:

其中XY分别是源语言和目标语言的词向量矩阵。

虽然该方法可以很快地计算出线性映射,但随着训练数据的增多,其运行所需内存也会显著增大,因此我们还尝试了用梯度下降(GD)方法求解该问题,并将结果与SVD方法进行了对比。

4.实验

我们在Universal Dependency Treebanks (UD v2.2)上选取了18种语言进行了实验,其中英语为源语言,其它语言为目标语言。在训练时只在英语数据上训练基于图的Biaffine分析器模型,然后在CLBT的跨语言上下文相关词向量的帮助下将该模型直接应用于目标语言上。

我们与3个基线模型进行了对比,其中FT-SVD是此前该数据集上最好的模型,他们利用了跨语言的上下文无关词向量;mBERT为直接将多语言BERT模型(该模型使用一百余种语言的语料进行训练,但训练时无显式跨语言监督信号)应用到该任务中代替跨语言词向量;XLM利用跨语言数据从头训练跨语言的语言模型,然后从中抽取跨语言上下文相关词向量。

表1 在UD v2.2数据上的实验结果(LAS)与FT-SVD和mBERT的对比

表1对比了我们的模型与FT-SVD和mBERT,可以看出我们提出的CLBT模型在17种语言中的15种上都显著优于这两种基线方法,且平均LAS比此前该数据集上的最好模型(FT-SVD)高了2.91%。

表2 在UD v2.2数据上的实验结果(LAS)与XLM的对比

表2中对比了我们的CLBT模型与XLM。我们在两个模型都实验了的4种语言上进行了对比,同时列出了二者使用数据量的对比。结果表明在与XLM取得近似效果的情况下,我们的CLBT模型使用的双语训练数据量要远远少于他们。

5.结论

本文提出了一种基于离线学习的跨语言上下文相关词向量学习方法,显著提高了零样本跨语依存分析的性能。通过利用公开的预训练好的单语BERT模型,我们的方法能够在利用有限的双语数据快速获取跨语言上下文相关词向量。由于在训练过程中没有针对依存分析任务进行微调,理论上来说用CLBT模型获得的跨语言上下文相关词向量可以应用到任何跨语言任务中。


方便交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

推荐阅读:

【ACL 2019】腾讯AI Lab解读三大前沿方向及20篇入选论文

【一分钟论文】IJCAI2019 | Self-attentive Biaffine Dependency  Parsing

【一分钟论文】 NAACL2019-使用感知句法词表示的句法增强神经机器翻译

【一分钟论文】Semi-supervised Sequence Learning半监督序列学习

【一分钟论文】Deep Biaffine Attention for Neural Dependency Parsing

详解Transition-based Dependency parser基于转移的依存句法解析器

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


让更多的人知道你“在看”

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值