【NLP论文阅读】-Building End-to-End Dialogue Systems Using Generative Hierarchical Neural Network Models

摘要:本网络是基于层次编码解码循环网络构成的。通过引导从大型语料库和预先词嵌入中学习,该网络有一个好的表现性。

以往研究存在的缺陷:1.需要大量特殊标注过的语料库 2. 需要一群人与未成熟的系统交互 3.  需要手工的特征

   RNN的多种用法,本文使用下面第四个用法:输入一个语句,产生长序列回答                                                                  

Hierarchical Recurrent Encoder-decoder:

模型分为两层:第一层为token层,第二层为utterance层。网络结构如下

sequence 按照顺序输入encoder,最后一层的hidden state构成utterance,次层也即为token层;

第二层为context hidden state,为第二层query处理层,积累多次对话信息进行传递,找到更多依赖。

Bidirectional HRED

当HRED只用于web query时,效果较好,但是当用于日常对话时,模型不太适用。

在token层采用Bid-RNN进行改进,forward层积累n之后的上下文信息;backforward将语句顺序调换,积累n之前的上下文信息。并且在以下两种情况中,使用bid-RNN:

(1)将每个RNN的最后hidden state连接作为contextRNN的输入

(2)在每个链条的时间维度上使用L2池化层,并且将这两个池化层连接作为输入。

bid-RNN有利于捕捉更多的短期依赖。

Bootstrapping from word Embeddings and Subtitle Q-A

对模型使用预训练:

(1)使用Word2vec在Google News corpus中对word embedding metric E训练

(2)使用SubTle对整个模型进行预训练

模型评估:采用word perplexity

结果

预训练对模型的优化效果比改变网络结果的优化效果更大。

该表中MAP是HRED-bid +SubTle的结果,可看出MAP回答更加通用性,产生这种现象的原因:由于数据稀缺,模型产生最常见的回答语句。同时回答通常与U1,U2采用相同的标点符号和代词2,阻碍了回答的多样性和主题性。产生这种现象的原因是:基于 MAP (beam search)输出的指标(如余弦相似度、BLEU、Levenshtein 距离)将主要偏向于输出与测试语篇中相同数量的标点符号和代词的模型,而不是相似语义内容(如名词和动词)的模型。

文章建议探索将语义结构与句法结构明确分开的神经架构。 最后,三元组的上下文可能太短。在这种情况下,模型应该从较长的上下文和其他信息源(如语义和视觉信息)中获益。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值