RNN-LSTM-GRU学习笔记

本文深入探讨RNN、LSTM和GRU,包括RNN的基本概念、常见问题(梯度消失与梯度爆炸)及其解决办法。详细介绍了LSTM的三个门机制,并对比了LSTM与GRU的结构差异。
摘要由CSDN通过智能技术生成

摘要:

本文用于总结整个RNN的学习过程以及学习资料。

RNN

1.下文是rnn利用Bptt的训练的推导过程。
RNN与bptt推导过程
2.rnn一些基本概念以及问题分析
参考文章-1
RNN中为什么要采用tanh而不是ReLu作为激活函数?

常见问题:

1.RNN是什么?
RNN是循环神经网络的简称。常用来对时间序列建模,具体来说就是一个序列当前的输出和前面的输出也有关,应用场景主要有自然语言处理、语音识别。
其内部与传统的神经网络最大的不同之处在于,RNN把上一个时刻隐藏层输出作为输入放到了下一个时刻中进行学习。以此希望学习到不同时刻之间的依赖关系。

2.RNN存在的问题是什么?
梯度消失和梯度爆炸。

3.RNN如何产生以及解决梯度消失?
产生的原因:
本质是由于反向传播中求解梯度的时候利用了链式法则。这会导致梯度被表示成连乘积的形式(在比较深的网络里,连乘的计算很容易就会导致数值趋于0或者趋于无穷,指数型的增长),另一方面隐藏层的激活函数也有关系,因为在反向传播的时候,每次往前传播都会乘以当前层的神经元的激活函数导数值,具体下面分析sigmoid函数。

对于sigmoid函数:
Sigmoid函数饱和使梯度消失。sigmoid神经元有一个不好的特性,就是当神经元的激活在接近0或1处时会饱和:在这些区域,梯度几乎为0(而且sigmoid导数值最大0.25)。

回忆一下,在反向传播的时候,这个(局部)梯度将会与整个损失函数关于该门单元输出的梯度相乘。因此,如果局部梯度非常小,那么相乘的结果也会接近零,这会有效地“杀死”梯度,几乎就有没有信号通过神经元传到权重再到数据了。还有,为了防止饱和,必须对于权重矩阵初始化特别留意。比如,如果初始化权重过大,那么大多数神经元将会饱和,导致网络就几乎不学习了。
tanh激活函数也有sigmoid同样的问题。(因为两者的本质是把输出挤压到了某一个范围,自然就存在饱和的问题)

解决梯度消失:
1.改进网络结构,使用lstm
2.更换激活函数,使用relu。

4.RNN如何产生以及解决梯度爆炸?
产生原因和梯度消失基本是一样的。都是由于链式法则产生的连乘积。
梯度爆炸相比于梯度消失是比较好发现的,因为梯度爆炸通常引起的异常是梯度数值过大会导致程序崩掉。解决梯度爆炸一般的方法是梯度裁剪,比如可以限幅。

LSTM

LSTM(Long Short Term Memory),其是RNN的一种变体,具体来说是对其内部结构进行了一点改变。
传统RNN的结构如下:
这里写图片描述
可以看到,内部只有隐藏层组成。

对于LSTM结构如下:
这里写图片描述
可以看到,LSTM内部结构复杂了许多。
(网上已经有许多关于lstm的学习资料了,这里只是简单做一个总结和心得)
虽然内部结构看起很复杂,其实主线是“三个门”

第一个门:(遗忘门)
这里写图片描述

简单的说,遗忘门的作用就是对上一时刻细胞状态 Ct1 的保留程度。通过 ft 的值来控制这个保留的程度(经过sigmoid函数之后映射成[0,1]之间的数,这也是每一个门选择使用sigmoid函数的原因,根据sigmoid函数位置的所在可以判断哪一部分是起到门的作用)

第二个门:输入门
这里写图片描述

这个门的作用其实就是对新学习的内容吸收程度一个取舍。
具体来说,当前时刻新学习的内容为 tanh(WC[ht1,xt]+bC

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值