RNN改进_GRU_LSTM基本原理及辨析、GRU激活函数为什么使用Sigmoid而不是ReLU

最新推荐文章于 2024-03-21 09:11:52 发布

PuJiang-

最新推荐文章于 2024-03-21 09:11:52 发布

阅读量2.8k

点赞数

分类专栏：深度学习理论基础文章标签：深度学习

本文链接：https://blog.csdn.net/jump882/article/details/123741482

版权

深度学习理论基础专栏收录该内容

16 篇文章 3 订阅

订阅专栏

一、RNN存在的问题

对RNN来讲，没有特别关注的部分，都是一个序列进去。而且RNN的梯度消失指的是每一项一项进行相加，可以发现距离拉的越长，连乘的项就越多，远距离的梯度会趋于0的，近距离的梯度不会消失。RNN梯度消失的真正含义是总的梯度受近距离梯度的主导，远距离的梯度消失。
对于激活函数可参考：深度神经网络中的激活函数_导数推理过程_python绘制图像示意_特点及使用场景

二、GRU门控单元

1、引入重置门和更新门

在这里插入图片描述 $R_t=\sigma(X_tW_{wr}+H_{t-1}W_{hr}+b_r) \\ Z_t=\sigma(X_tW_{wz}+H_{t-1}W_{hz}+b_z)$ 其中 $\sigma()$ 选用 $s i g m o i d ()$ 作为激活函数。

2、候选隐藏状态

在这里插入图片描述 $\widetilde{H_t}=tanh(X_tW_{xh}+(R_t \odot H_{t-1}))$

3、最终隐藏状态

$H_t=Z_t \odot H_{t-1}+(1-Z_t)\odot\widetilde{H_t}$

三、LSTM长短期记忆网络

1、输入门、遗忘门、输出门

在这里插入图片描述 $I_t=\sigma(X_tW_{xi}+H_{t-1}W_{hi}+b_i)\\ F_t=\sigma(X_tW_{xf}+H_{t-1}W_{hf}+b_f)\\ O_t=\sigma(X_tW_{xo}+H_{t-1}W_{ho}+b_o)$

2、候选记忆元

同理于上面3个门的计算方式：
在这里插入图片描述 $\widetilde{C_t}=tanh(X_tW_{xc}+H_{t-1}W_{hc}+b_c)$

3、记忆元

在这里插入图片描述 $C_t=F_t\odot C_{t-1}+I_t\odot \widetilde{C_t}$ 它不像GRU： $H_t=Z_t \odot H_{t-1}+(1-Z_t)\odot\widetilde{H_t}$ 。 $Z_t$ 与 $1-Z_t)$ 的值是互补的，而LSTM： $F_t$ 与 $I_t$ 的值相加不一定等于1。

4、最终隐藏状态

在这里插入图片描述 $H_t=O_t\odot tanh(C_t)$

四、GRU激活函数为什么使用Sigmoid而不是ReLU

1、为什么用Sigmoid

直观来讲，Sigmoid与之作用后得到r、t，r、t取值范围(0,1)。可以理解为起到了一个概率的作用。极端情况，全为1的时候，完全保留与r或t运算的信息。全为0的时候，完全舍弃与r或t运算的信息。同时Sigmoid处处可导。

2、为什么不用ReLU

单边抑制，小于0的部分神经元全部都不再被激活。

五、参考

[1]https://zh-v2.d2l.ai/chapter_recurrent-modern/gru.html

PuJiang-

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
RNN改进_GRU_LSTM基本原理及辨析、GRU激活函数为什么使用Sigmoid而不是ReLU

一、RNN存在的问题对RNN来讲，没有特别关注的部分，都是一个序列进去。而且RNN的梯度消失指的是每一项一项进行相加，可以发现距离拉的越长，连乘的项就越多，远距离的梯度会趋于0的，近距离的梯度不会消失。RNN梯度消失的真正含义是总的梯度受近距离梯度的主导，远距离的梯度消失。二、GRU门控单元引入重置门和更新门：Rt=σ(XtWwr+Ht−1Whr+br)Zt=σ(XtWwz+Ht−1Whz+bz)R_t=\sigma(X_tW_{wr}+H_{t-1}W_{hr}+b_r) \\ Z_t=\sigm
复制链接

扫一扫

专栏目录