写在最前面,这篇文章的思路倒是还ok的,就是这个语言读起来。。。。感觉像是我读那本中文的数据库系统概念黑皮书一样晦涩难懂。。。
1.论文链接
https://arxiv.org/pdf/1507.04808.pdf
2.论文主要为了解决什么问题?
主要是为了提高人机对话的准确度,解决RNN梯度消失的问题,如果在较为低的token层出现了干扰项,很有可能hidden state也收到影响,同时由于传统的RNN会主要看上一个的hidden state,因此它提出变得deep一点,能够看的更加全局。
3.模型流程
过程:
本文首先说明了如果像传统的RNN那样将之前的hidden layer直接传递给下一个的input,可能会对梯度的传播极其不友好,因此可能会把之前的last state直接加到下一个的last state。
或者更干脆一点,对于每一个生成的hidden layer再套一个RNN
3.1encoder RNN
第一层就是普通的RNN
3.2 context RNN
第二层把第一层的hidden state提取出来,又做了一遍RNN
3.3 decoder
产生的context vector和上一个单词的word embedding作为decoder的输入
4.论文创新点
不仅捕捉到了每个单独的词的内部的信息,还优化了句子结构的信息。
采用分层的结构挺有创新的,并且它发现了梯度可能会消失的问题,在文章中把这点改进了。
5.本论文可能潜在改进的地方
用attention或者transformer改进一下
梯度消失也许可以用LSTM的方法改进一下