Meta Learning在NLP领域的应用

Hi,这里是哈林,今天来跟大家聊一聊Meta Learning在NLP领域的一些应用。

哈林之前在学校科研的方向是NLP,个人对如何将先进的机器学习算法应用到NLP场景很感兴趣(因为好水paper),同时之前也做过一些尝试(水过一些paper)。因此今天主要介绍一下Meta Learning与NLP任务结合的一些工作。话不多说,先上一个自己总结的paper list:

Github链接:
https://github.com/ha-lins/MetaLearning4NLP-Papers

背景:元学习

通常在机器学习里,我们会使用某个场景的大量数据来训练模型;然而当场景发生改变,模型就需要重新训练。但是对于人类而言,一个小朋友成长过程中会见过许多物体的照片,某一天,当Ta(第一次)仅仅看了几张狗的照片,就可以很好地对狗和其他物体进行区分。

元学习Meta Learning,含义为学会学习,即learn to learn,就是带着这种对人类这种“学习能力”的期望诞生的。Meta Learning希望使得模型获取一种“学会学习”的能力,使其可以在获取已有“知识”的基础上快速学习新的任务,需要注意的是,虽然同样有“预训练”的意思在里面,但是元学习的内核区别于迁移学习(Transfer Learning)。

这里介绍一个经典的基于优化的元学习框架MAML[1],(即Model-agnostic Meta Learning)。MAML的目的是获取一组更好的模型初始化参数(即让模型自己学会初始化)。我们通过(许多)N-ways,K-shot的任务(训练任务)进行元学习的训练,使得模型学习到“先验知识”(初始化的参数)。这个“先验知识”在新的任务上可以表现的更好,其算法流程如下图所示:
MAML框架

Note:MAML是一个二阶的元学习算法,因为二阶优化计算海塞矩阵的成本较大,因此后续出现了一阶的元学习算法,如:Repitle[2],通过近似二阶导数,可以实现近似MAML的性能。接下来介绍两个MAML在对话系统领域应用的工作。水paper的好方向

工作介绍1:DAML

先来看第一篇DAML[3],做的是task-oriented dialogue任务下的domain adaption:举个例子来说,假设我们手头有三个域的训练数据(source domains):restaurant, weather, bus information,然后用少量(few-shot learning)的movie领域数据作为新的target domain来测试dialogue的任务完成性能。这个任务是非常有价值的,目前的task-oriented dialogue的dataset往往是针对特定领域的,如果能实现这种域适应,将会降低很多人工标注成本。

通过这个例子可以看出,这篇paper是在研究transfer learning和few-shot learning(少量的test data),采用的方法则是meta-learning中的经典方法MAML:即通过训练寻找一个优秀的初始化参数,使得仅通过两步梯度下降,就能快速适应到新的target domain上。

DAML算法框架

图中的序号表示执行的先后顺序, M M M 为模型参数,重点看b)图,k=1,2,3分别代表不同的source domain,可以看到DAML采用了两次梯度更新(local和global),先结合域训练数据和初始模型,更新一步得到一个临时model M k ′ M'_{k} Mk ,再由此来计算meta learning的loss,再通过几次梯度更新原始model。至于为何要经过这个临时model M k ′ M'_{k} Mk ,应该是因为可以学到一种所有源域普适的表示,而不是针对特定域的直接的特征。

以上就是这篇paper的核心思想,下面看一下具体实现和细节:前文说了这是一个task-oriented dialogue背景的问题,本文借鉴并采用了一种end-to-end的seq2seq模型:Sequicity[3],与domain adaption的SOTA模型ZSDG和transfer learning model进行了比较,在ZSDG提供的SimDial数据集上进行实验,从任务完成情况(Entity F1 score)和Adapting time等多个方面评估比较。

工作介绍2:GEML

接下来是哈林发表在AAAI 2021上的一篇低资源场景下的医疗对话系统的工作GEML[4],旨在通过元学习构建一个跨疾病可迁移的对话系统。

GEML算法框架图

如上图所示,针对医疗对话场景中疾病数据不均衡的现象,GEML首先设计了一个基于外部医疗知识图谱的端到端对话系统,然后通过一种图演化元学习框架来对其进行元训练和迁移。该对话系统包含三个组件: 分层上下文编码器、元知识图推理模块与图指导的响应生成器;同样还是类似MAML的思路,只不过针对现有知识图谱对对话实体覆盖不全的问题,本文还通过graph evolving的方法对知识图谱进行丰富。具体的模型细节大家可以去论文里查阅~

总结

通过这两个工作和paper list,可以看到以MAML为代表的optimization-based meta learning方法,以其模型无关的灵活性的特点,在各个NLP topic(如:dialog system/ semantic parsing等)的few-shot场景下遍地开花,而其他的meta-learning方法(如metric-based)多集中在解决分类问题上。如何在少量数据场景下构造出合理的meta task,是解决问题的关键。

参考资料

  • [1] Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks, ICML 2017.
  • [2] On First-Order Meta-Learning Algorithms, arXiv 2018.
  • [3] Domain Adaptive Dialog Generation via Meta Learning, ACL19.
  • [4] Graph Evolving Meta-Learning for Low-resource Medical Dialogue Generation, AAAI 2021.

更多算法基础知识介绍,前沿论文解读,欢迎关注微信公众号:口袋AI算法
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值