摘要:本网络是基于层次编码解码循环网络构成的。通过引导从大型语料库和预先词嵌入中学习,该网络有一个好的表现性。
以往研究存在的缺陷:1.需要大量特殊标注过的语料库 2. 需要一群人与未成熟的系统交互 3. 需要手工的特征
RNN的多种用法,本文使用下面第四个用法:输入一个语句,产生长序列回答
Hierarchical Recurrent Encoder-decoder:
模型分为两层:第一层为token层,第二层为utterance层。网络结构如下
sequence 按照顺序输入encoder,最后一层的hidden state构成utterance,次层也即为token层;
第二层为context hidden state,为第二层query处理层,积累多次对话信息进行传递,找到更多依赖。
Bidirectional HRED
当HRED只用于web query时,效果较好,但是当用于日常对话时,模型不太适用。
在token层采用Bid-RNN进行改进,forward层积累n之后的上下文信息;backforward将语句顺序调换,积累n之前的上下文信息。并且在以下两种情况中,使用bid-RNN:
(1)将每个RNN的最后hidden state连接作为contextRNN的输入
(2)在每个链条的时间维度上使用L2池化层,并且将这两个池化层连接作为输入。
bid-RNN有利于捕捉更多的短期依赖。
Bootstrapping from word Embeddings and Subtitle Q-A
对模型使用预训练:
(1)使用Word2vec在Google News corpus中对word embedding metric E训练
(2)使用SubTle对整个模型进行预训练
模型评估:采用word perplexity
结果
预训练对模型的优化效果比改变网络结果的优化效果更大。
该表中MAP是HRED-bid +SubTle的结果,可看出MAP回答更加通用性,产生这种现象的原因:由于数据稀缺,模型产生最常见的回答语句。同时回答通常与U1,U2采用相同的标点符号和代词2,阻碍了回答的多样性和主题性。产生这种现象的原因是:基于 MAP (beam search)输出的指标(如余弦相似度、BLEU、Levenshtein 距离)将主要偏向于输出与测试语篇中相同数量的标点符号和代词的模型,而不是相似语义内容(如名词和动词)的模型。
文章建议探索将语义结构与句法结构明确分开的神经架构。 最后,三元组的上下文可能太短。在这种情况下,模型应该从较长的上下文和其他信息源(如语义和视觉信息)中获益。