![ba94986560ebc000854336cff5c0e4e4.png](https://i-blog.csdnimg.cn/blog_migrate/0b97749b5408ae5a55af1185415c1d11.jpeg)
本文主要介绍的是循环神经网络RNN及其研究进展,其中的主要内容来自于一篇2019年的ICLR论文,论文原文如下
AntisymmetricRNN: A Dynamical System View on Recurrent Neural Networksarxiv.org一、RNN与LSTM
在机器学习领域中,循环神经网络(RNN)可以说是一块相当重要的组成部分了,由于它能够在处理新数据的时候将之前的数据也考虑进来,所以RNN在序列数据的建模中有着广泛的应用,例如机器翻译任务,我们在翻译一个单词时,如果能将之前已经翻译输入的单词信息也考虑进去的话,那么翻译的肯定会更加准确。为了达到这样目的,RNN采用了如下图所示的结构,其计算过程如下式所示,其中U、W和V都是权重参数。
![3ed53b89491b37e7fd882b61d48dd5ff.png](https://i-blog.csdnimg.cn/blog_migrate/fc7f0a7976981f48eda30c2198b27ef5.png)
可以看出,对于RNN,在计算隐层值
但是RNN也存在着一些问题,虽然它能够用于对序列数据建模,但是当序列较长的时候,它就会出现梯度消失和梯度爆炸的问题,而这样就使得它在实际应用中收到了很大的限制。为了解决这个问题,LSTM应运而生,它是RNN的一个变种,下面是原始RNN和LSTM的结构对比。
![ecc3f6800cbc5a87b1e1bf7ca18f73f9.png](https://i-blog.csdnimg.cn/blog_migrate/d811354fa6e070ff4dc6b8cf70304b13.jpeg)
可以看出,LSTM比原始的RNN多了一个传递状态
下面是LSTM的内部结构,首先类似于原始RNN,将输入的