对话系统学习笔记(4)

对话系统学习笔记(4)–Hierarchical Variational Memory Network for Dialogue Generation

这篇文章是在2018_WWW中发布的,作者是Jiliang Tang Data Science and Engineering Lab Michigan State University,这篇文章使用的是分层网络和记忆网络相结合的方式来取得更好的对话生成。在此将先介绍三篇论文:

  • Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models
    这篇论文是第一篇将分层神经网络应用于对话系统的论文,作者是Serban。文章的中心思想:作者认为在标准的seq2seq 模型中,上下文信息的依赖有限,会出现对话连续性的问题。所以作者提出一种能够对句子(utterance)和上下文(context)同时建模的分层网络,来实现多轮对话。模型如下:
    在这里插入图片描述在此模型使用的是分层的seq2seq模型构造多轮对话,Encoder 部分对输入句子进行编码,与前人不同的是,编码部分分为了两层,

  • 第一层与普通的seq2seq相同,是对当前句子进行编码并把最后一个时刻的隐层向量认为是输入句子的编码向量,当做下一层RNN的输入向量。

  • 第二层也就是context RNN层,它是用来编码整个对话的,通过这一层我们可以对整个对话的状态有一定的把握,而第一层RNN用来编码一句话的句子层面信息,中间层每个时刻输入的第一层输出的句子表示向量,这样context RNN的隐藏层向量就可以记住之前的对话信息,所以成为上下文向量。最后,将该编码了之前对话信息的向量作为decoder RNN的输入向量,使得在解码过程中除了使用回答句子本身信息还会结合上下文的信息。

  • 最后,为了提高对话系统的性能,作者提出了首先在大语料上训练词向量(word embedding)和在Q-A SubTle进行预训练的方式。

  • A Hierarchical Latent Variable Encoder-Decoder Model for Generating Dialogues

    这篇文章的作者同样为Serban,实际上这篇文章提出的方法也是对第一篇文章所提出方法的优化。同样也是缺乏high-level的问题,作者在此基础上提出了在普通的seq2seq模型中唯一变化的因素就是输出序列概率分布的不同导致输出发生变化,从概率学的角度来看,在 low-level 引入随机变化,模型会偏向于捕捉局部特征;从计算的角度来看,我们的decode需要将之前所有的信息总结起来进行计算,但是短距离目标影响更加强烈,所以该模型引入 stochastic latent variables z 来表示 high-level variability以此增加了在high-level上的可变性。作者提出的模型如下:
    在这里插入图片描述
    其中Zn的均值和方差都是根据Context RNN的隐藏层向量计算的,训练时,隐变量 zn 从近似后验概率中采样,就是图中虚线;测试时,隐变量 zn 从先验概率中采样,就是图中实现部分。

  • Hierarchical Variational Memory Network for Dialogue Generation

    这篇文章是在VHRED的基础上又加入了记忆网络来提高对话回复的质量。模型如下:
    在这里插入图片描述由于Zm是由先验与后验的KL距离限制的,所以在对话过程中变化缓慢并且可以作为一个high-level。但是由于缺乏长期记忆,回答的恰当性被削弱了,这是因为Zm是一个单一的注入高斯噪声的向量,因此无法很好地管理话语的细节。在此基础上,作者将Zm与记忆单元结合以此达到更好的效果。模型处理如下:
    在这里插入图片描述
    其中,b是variational memory output,通过以下公式得出:
    在这里插入图片描述

通过这种方法,在HVMN中,潜变量Zm与记忆单元合并,记忆单元模拟了对相关历史的随机访问, Zm侧重于更高层次的抽象,比如主题、情感等,同时记忆单元 专门维持观察到的话语的长期的细节。 随机潜变量Zm检索记忆单元,然后用新的话语进行确定性更新。

实验结果如下:
在这里插入图片描述
作者使用的评价指标是:
Embedding Average(Average),Embedding Extrema(Extrema)and Embedding Greedy (Greedy)。
在这篇论文中作者的创新点是使用了记忆神经网络来保存历史信息,与VHRED相比,记忆神经网络保存的历史信息更为全面(在LSTM中倾向于保存近距离的信息),同时作者也采用了变分自编码的思想对记忆网络中存储的历史信息进行采样以增加回答的多样性。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值