《End-to-End Slot Alignment and Recognition for Cross-Lingual NLU》论文研读

原文出处:英文原文

声明:本文对论文的摘要,引言,方法以及结果进行了翻译,同时增加了小编自己对文章的理解,若有不恰当之处,敬请指导和交流!

目录

摘要

1 引言

1.1 背景

1.2 研究现状

1.3 研究目标

2 相关工作

2.1 通过多语言模型的迁移

2.2 通过机器翻译的迁移

3 数据集

4 研究方法

4.1 意图识别和槽位填充联合训练

4.2 槽位标签映射的问题

4.3 利用注意力机制的端到端的槽位对齐和识别

5 研究结果

5.1 多语言理解的结果

5.2 跨语言迁移的结果


摘要

       在面向目标的对话系统中,自然语言理解通常包括意图分类和槽位标记两种任务。现有的方法将一个自然语言学习系统扩展到新的语言,使用带槽标签投影(Slot label projection)的机器翻译(MT),因此对投影误差很敏感。在这项工作中,我们提出了一个新的端到端模型,联合进行对齐预测目标槽标签(Target Slot Label)进行跨语言迁移的学习。我们引入了一个新的多语种NLU语料库MultiATIS,将其扩展到4个语系的9种语言,并利用该语料库对我们的方法进行了评估。结果表明,我们的方法在大多数语言上都优于使用快速对齐(fast-align)的简单标签投影方法,对比目前最先进的投影方法,仅用一半的训练时间就达到了与其相似的性能。我们向社区发布了我们的MultiATIS++语料库,以继续未来跨语言自然语言学习的研究。

1 引言

1.1 背景

     作为面向目标对话系统的重要组成部分,自然语言理解(NLU)负责将语句解析为语义框架,以识别用户的需求。这些语义框架由用户打算做什么(意图)和意图的参数(槽)构成。在文中图1的英语示例中,我们将语句的意图确定为“flight”,并对slot进行标记,以提取出发地城市和航空公司名称。意图检测可以被建模为一个句子分类任务,其中每个语句都被标记一个意图y_{I}。槽填充通常被建模为一个序列标记任务,其中给定话语x_{1...n},每个单词x_{i}都用一个槽y_{i}标记。

1.2 研究现状

  1. 尽管神经模型在意图检测和槽位填充方面取得了很高的精度,在一种新的语言上训练这样的模型需要花费更多的人力和物力来收集大量的训练数据
  2. 目前虽然有用于多语言NLU的数据集,但是目前只支持分布在两个语系中的三种语言,这将阻碍跨语言迁移在更多语言上的研究;

1.3 研究目标

  1. 本文将发布一种新的多语种NLU语料库,该语料库拓展了原有的MultiA TIS语料库,新增了6中语言;
  2. 本文探索了使用mBERT编码器,机器翻译(MT)以及标签映射方法用于多语言训练和跨语言迁移的效果;
  3. 提出了一种端到端的模型,该模型可以联合槽位标签对齐以及识别一起训练,以便于不再依赖外部的词对齐工具或工程特性进行槽位标签的投影,因为词对齐工具或工程特性可能不适用于低资源的语言。
  4. 本文的模型使用注意力模块执行软标签对齐,注意力模块将与其他部件一起联合训练用于意图分类,槽位填充和增强重构目标,增强重构目标的涉及用于改善软标签对齐的问题。

2 相关工作

跨语言学习的标注任务主要分为两类:通过多语言模型的迁移和通过机器翻译的迁移。

2.1 通过多语言模型的迁移

  1. 对于字母相似、关系密切的语言,训练具有共享字符编码器的多语言模型来学习常见的基于字符的特征是有益的,然而不利于缺乏共同词汇特征的不相似语言;
  2. 采用对抗性训练提取源语言共享的语言不变特征;多语言神经机器翻译(NMT)编码器的表示已经被证明是有效的跨语言文本分类;
  3. 本文将使用mBERT进行训练

2.2 通过机器翻译的迁移

  1. 该方法依赖机器翻译,需要先将源语言翻译成目标语言,或将目标语言翻译成源语言,但是需要将源语言句子的标签映射到翻译的句子上,这方面有很多工作(略)。
  2. 本文不依赖单词对齐或者语言特征,而是通过一个注意力模块建模标签投影,该模块可以与机器翻译数据上的其他模型组件联合训练。

3 数据集

本文的数据集是基于ATIS数据集,通过专业人员的翻译和标注得到了新的6中语言,语句中保留了原英语句子的口语情态现象(如犹豫和单词重复)和书写的风格(如正式程度),使其更接近真实的情景。论文中给了一个示例,展示的是MultiATIS++语料库中的一个英语训练例子和它对应的翻译版本。如下图所示:

 

4 研究方法

这一部分,小编根据自己的理解,对论文的图2进行注释,希望能够更方便大家理解。

4.1 意图识别和槽位填充联合训练

4.2 槽位标签映射的问题

4.3 利用注意力机制的端到端的槽位对齐和识别

主要的思想就是,在联合训练的基础上,引入原始语言。在训练的过程中,使用注意力机制,计算源语句中第i个单词的embeddinge_{i}^{(src)}与目标语言序列h^{(tgt)}之间的权重值a_{i}。随后利用源语句中第i个单词的与目标语句中第j个单词之间的注意力权重值a_{i,j},乘以目标语句中第j个单词的编码h_{j}^{(tgt)},并对目标语句中的1..T个单词序的上述相乘的结果相加,得到z_{i},至此注意力机制的计算完成。随后通过一个Linear层和Softmax层,将最终的结果与源语句的slot进行对比,计算loss值。

除此以外,为了促使注意力模块更好地实现源语句与目标语句之间的对齐,本文增加了重构模块,将被输入到Feed Forward层,再经过Linear层和Softmax层,最终得到预测语句与源语句之间的loss值。

因此,在本文中最终的训练损失函数loss由以下组成:

 在上述模型中,只有网络训练的时候才会用到注意力模块和重构模块;在推理阶段,直接输入目标语句编码后的特征h_{0...T}^{(tgt)}进行意图识别和槽位识别。

5 研究结果

5.1 多语言理解的结果

在这组实验中,使用以下两种策略进行训练,用来验证使用预训练的多语言BERT在多语言理解上的作用。

  • 仅针对目标(Target only):使用监督学习,对每一种目标语言进行模型训练。
  • 多语言(Multilingual:):使用监督学习,对所有的语言一起训练得到一个模型。

分析结果:mBERT提升了意图识别的精度和槽位识别的F1,多语言训练模式下,提升了Hindi和Tuikish两种语言的意图识别精度和槽位F1。(小编多说一句,第一个实验就是验证mBERT用在MT+Soft-align中比LSTM用在MT+Soft-align中好,所以下一部分的测试中,在MT+Soft-align中就没再用LSTM了)

5.2 跨语言迁移的结果

在本节中,我们将只使用英语训练数据和少量(few-shot)或没有(zero-shot)来自目标语言的训练数据进行跨语言迁移的方法进行比较:

文中设计了四种训练的策略,如下:

  • No MT:训练模型的输入只有英语训练语句,无目标语言语句,测试时使用目标语言;
  • MT+fast-align:使用英语+所有目标语言的训练数据进行训练,然后使用fast-align映射槽位标签;
  • MT+TMP:使用英语+所有目标语言的训练数据进行训练,然后使用TMP映射槽位标签;
  • MT+soft-align:使用英语+所有目标语言的训练数据进行训练,然后使用本文的soft-align映射槽位标签;

随后,本文基于上述四种策略,分别进行了Zero-Shot 和few-shot的测试,综合所有的结果表明:本文的MT+soft-align方法在能够达到最新技术MT+TMP的性能,同时时间需要MT+TMP时间的一半。

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值