ACL Findings | 任务共舞,小样本场景下的多任务联合学习方法初探

每天给你送来NLP技术干货!


论文名称:Learning to BridgeMetric Spaces: Few-shot Joint Learning of Intent Detection and Slot Filling

论文作者:侯宇泰,赖永魁,陈成,车万翔,刘挺

原创作者:侯宇泰

论文链接:https://arxiv.org/abs/2106.07343

代码链接:https://github.com/AtmaHou/FewShotJoint

出处:哈工大SCIR

1 简介

在本文中,我们以对话语言理解为切入点,研究了Few-shot情景下的联合学习(Joint-Learning)问题。现有的小样本模型往往每次只学习单一任务 [1,2]。然而,真实应用场景常常由多个彼此相关的任务组成 [3,4]。例如图1所示,对话语言的理解包含两个紧密相关的任务,即意图检测和槽位填充,并且常常受益于联合学习这两个任务 [5,6]。这种联合学习场景需要全新的小样本学习技术:从仅有的几个示例中捕获任务关系,并联合地学习多个任务。

bb5aeea0c74cd234a8257eaf4ba927f4.png

图1 小样本情景下的联合对话理解

然而,简单的结合小样本学习和联合学习的方法并不能达到目的,甚至可能会导致性能下降。这是因为联合学习多个任务需要从数据中建模多个任务之间关系(通常是跨任务标签间的依赖关系),而小样本下的联合学习面临两方面的独特挑战:

(1)一方面,从仅有的少量样本中无法学习具有足够泛化性的任务关系。

(2)另一方面,不同领域任务和标签都不同,任务联系也因而完全不同,导致无法直接从富数据领域迁移任务联系到未见的小样本领域。

为了解决上述问题,我们提出了一种基于相似度的Few-shot学习方案,称为“ Contrastive Prototype Merging Network(ConProm 共舞)”。如图2所示,该模型在数据丰富的领域上学习如何动态地桥接不同任务(意图识别(intent recognition)和槽位填充(slot filling))的度量空间,然后在桥接后的度量空间上联合地优化两个任务。在两个公共数据集Snips和FewJoint上进行的实验表明,我们的模型在显著优于最强的基线模型(baseline)。两个数据集上1-样本设置(1 shot)结果上各提升约10个点。

b6a475ea369cdbd6c90714db274c98f7.png

图2 ConProm “共舞”模型架构图

2 方法

2.1 背景:基于度量学习的小样本方法

目前,小样本学习的一个主流研究方向是基于度量学习的方法,在各种图像和自然学习的基准测试(benchmark)中,基于度量学习的方法也屡屡夺魁。因此,本文主要基于度量学习的研究脉络探索解决方案。如图3所示,基于度量的小样本学习方法首先学习一个领域通用的度量空间,然后在目标领域根据标签和标签的相似度判断样本的类别。这种方法属于非参数学习因而天然能缓解下游任务微调(fine-tuning)造成的过拟合问题。

4b8fb90472ce03978ec65a1dde66afba.png

图3 基于度量学习的小样本方法

2.2 Contrastive Prototype Merging Network(ConProm 共舞模型)

ConProm 模型包含两个主要相辅相成的步骤:

(1)原型融合(Prototype Merging),动态连接联合学习任务的度量空间。

(2)比较对齐学习(Contrastive Alignment Learning),在连接后的度量空间联合优化多个任务。

这样,我们可以达到如下两个目的:

(1)我们可以避免直接学习小样本中稀疏意图-槽位关系。

(2)我们可以转而迁移连接度量空间的能力,从而间接达到迁移建模任务间联系的目的。

2.3 原型融合

(1)动机:动态连接联合学习任务的度量空间。

(2)解决方法:如图4左半所示,我们通过连接不同任务的类别表示来桥接不同任务的度量空间。这里我们连接意图类别和相关的槽位类别的表示。

4c1c26d00ab824d58c7f5a27a38b4044.png

图4 Prototype Merging 原型融合

具体地,意图和槽位是否相关的关系是通过意图和槽类原型之间的交叉注意力来学习的(如图4 下所示)。然后,我们用插值的方式融合跨任务但相关的类别表示信息,从而在两个任务的原型之间自适应地共享信息,如下式所示:

75b940eb8e2e95cd97972e9bdcde68a6.png

2.4 比较对齐学习

(1)动机:

  • 联合优化连接后的度量空间。

  • 优化的直觉和目标是,相关的意图和插槽类别应该相邻分布,否则应该彼此分开。

(2)解决方案:具体地,我们用边缘对比损失(Margined Contrastive Loss)正则化小样本模型的学习过程。以达到如图5右半部分所示的效果。正则loss如下所示:

9c0810b86c3991c791e6750e8247bc44.png

最终的联合模型的学习loss的是多个任务的loss加上Margined Contrastive Loss。

247279076187301e8bff7638601f4a95.png

a879352c8d3423f91aa8f5d75d8c240c.png

图5 Contrastive Alignment Learning 比较对齐学习

3 实验

我们在两个数据Snips和FewJoint上进行了1-shot 和5-shot 实验。如图6所示,我们的模型大幅地提升了联合准确率。

4a760db43d1a21df1843debfc408a830.png

图6 主实验结果 

图7是联合学习的可视化效果图,可以看到,我们的方法相较于简单地共享编码器(Encoder),能更有效地捕获不同任务之间的类别联系,并使不同类别的分布更加合理、易于区分。

38080d195429fc23f38cbae1e8c994e0.png

图7 联合学习的可视化效果

4 总结

本文中,我们以对话语言理解为切入点,研究了Few-shot情景下的联合学习问题。我们提出了一种基于相似度的Few-shot学习方案:“ Contrastive Prototype Merging Network(ConProm 共舞)”。我们在数据丰富的领域上学习如何动态地桥接不同任务的度量空间,然后在桥接后的度量空间上联合地优化两个任务。在两个公共数据集Snips和FewJoint上进行的实验表明,我们的模型显著优于最强baseline。

5 引用

[1] Erik G. Miller, Nicholas E. Matsakis, and Paul A. Viola. 2000. Learning from one example through shared densities on transforms. In Proc. of the CVPR, pages 1464–1471. IEEE Computer Society.

[2] Oriol Vinyals, Charles Blundell, Tim Lillicrap, Koray Kavukcuoglu, and Daan Wierstra. 2016. Matching networks for one shot learning. In Proc. of the NeurIPS, pages 3630–3638.

[3] Joseph Worsham and Jugal Kalita. 2020. Multitask learning for natural language processing in the 2020s: where are we going? Pattern Recognition Letters.

[4] Qian Chen, Zhu Zhuo, and Wen Wang. 2019. BERT for joint intent classification and slot filling. CoRR, abs/1902.10909.

[5] Libo Qin, Wanxiang Che, Yangming Li, Haoyang Wen, and Ting Liu. 2019. A stack-propagation framework with token-level intent detection for spoken language understanding. In Proc. of the EMNLPIJCNLP, pages 2078–2087, Hong Kong, China. Association for Computational Linguistics.

[6] Chih-Wen Goo, Guang Gao, Yun-Kai Hsu, Chih-Li Huo, Tsung-Chieh Chen, Keng-Wei Hsu, and YunNung Chen. 2018. Slot-gated modeling for joint slot filling and intent prediction. In Proc. of the NAACL, Volume 2 (Short Papers), pages 753–757, New Orleans, Louisiana. Association for Computational Linguistics.

本期责任编辑:冯骁骋

本期编辑:钟蔚弘


投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

b84877ee4e459a1dc2333a4ced4daff3.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值