[NLG] Domain Adaptive Dialog Generation via Meta Learning

最新推荐文章于 2022-03-17 23:05:23 发布

lwgkzl

最新推荐文章于 2022-03-17 23:05:23 发布

阅读量547

点赞数

分类专栏：对话系统 NLP 文章标签： dialogsystem metalearing seq2seq

本文链接：https://blog.csdn.net/lwgkzl/article/details/102714426

版权

NLP 同时被 2 个专栏收录

30 篇文章 2 订阅

订阅专栏

对话系统

15 篇文章 1 订阅

订阅专栏

总述：

这篇文章貌似就是把end2end模式的dialogue system套了一层maml的更新方式，然后在few-shot领域上的效果比之前赵天成的ZSDG效果要好。感觉思路很清新也很简单，不知道是不是我没看懂QAQ总之要看懂这篇论文，首先得看下Sequicity 和 MaMl

模型：

首先介绍一下maml的主要思想：maml就是说有多个domain的数据a1,a2,a3,a4.然后普通的深度学习就是根据a1反向传播计算一个梯度a1' 然后更新网络，然后在a1'的基础上依次根据a2来更新得到a2'再得到a3',a4'。但是maml有点不同，分别从原始的网络只根据a1更新得到a1',只根据a2更新得到a2’,只根据a3得到a3'，然后在a1'的基础上，再用a1的数据得到a1'', 同样可以得到a2'',a3''，等等。最后将ai''累加起来得到了一个梯度，用这个梯度对最开始的那个网络进行更新就好了。这样就可以学到不同domain a1,a2,a3,a4之间的通性，然后应用的新的domain。可以见到，maml实际上是可以套到任何一个序列模型上的，因为他只是一种更新参数的方式，而并不是一种网络结构。

至于sequicity呢，可以参考一下我的这篇阅读笔记他本身就是将dialogu system做成了一个end2end的模式，什么事end2end呢，就是从nlu到nlg是一条龙服务，可以从nlg的loss一直求梯度，直到更新到nlu那一层。也就是说是一个序列模型。把对话系统做成序列模型还是挺厉害的了~，既然这个dialogue是序列的，为啥不试试把他套到maml上做一做few-shot呢？果然效果很棒。

模型存在的问题i:

1. 对复杂的语句不能很好的理解

2. 在新领域中出现的实体，出现unk问题

一句话总结：

在end2end模式dialog system 的序列模型上，结合了meta learning的MaMl参数更新方式，实现了few-shot dialog system的最佳效果。

lwgkzl

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[NLG] Domain Adaptive Dialog Generation via Meta Learning

总述：这篇文章貌似就是把end2end模式的dialogue system套了一层maml的更新方式，然后在few-shot领域上的效果比之前赵天成的ZSDG效果要好。感觉思路很清新也很简单，不知道是不是我没看懂QAQ总之要看懂这篇论文，首先得看下Sequicity和 MaMl模型：首先介绍一下maml的主要思想：maml就是说有多个domain的数据a1,a2,a3...
复制链接

扫一扫