【论文阅读】Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models

写在最前面,这篇文章的思路倒是还ok的,就是这个语言读起来。。。。感觉像是我读那本中文的数据库系统概念黑皮书一样晦涩难懂。。。

1.论文链接

https://arxiv.org/pdf/1507.04808.pdf

2.论文主要为了解决什么问题?

主要是为了提高人机对话的准确度,解决RNN梯度消失的问题,如果在较为低的token层出现了干扰项,很有可能hidden state也收到影响,同时由于传统的RNN会主要看上一个的hidden state,因此它提出变得deep一点,能够看的更加全局。

3.模型流程

在这里插入图片描述
过程:

本文首先说明了如果像传统的RNN那样将之前的hidden layer直接传递给下一个的input,可能会对梯度的传播极其不友好,因此可能会把之前的last state直接加到下一个的last state。

或者更干脆一点,对于每一个生成的hidden layer再套一个RNN

3.1encoder RNN

第一层就是普通的RNN

3.2 context RNN

第二层把第一层的hidden state提取出来,又做了一遍RNN

3.3 decoder

产生的context vector和上一个单词的word embedding作为decoder的输入

4.论文创新点

不仅捕捉到了每个单独的词的内部的信息,还优化了句子结构的信息。

采用分层的结构挺有创新的,并且它发现了梯度可能会消失的问题,在文章中把这点改进了。

5.本论文可能潜在改进的地方

用attention或者transformer改进一下
梯度消失也许可以用LSTM的方法改进一下

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值