RNN

最新推荐文章于 2022-04-18 20:16:09 发布

未来可期-2018

最新推荐文章于 2022-04-18 20:16:09 发布

阅读量92

点赞数

文章标签：神经网络人工智能 python 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43310853/article/details/104571976

版权

做这样的笔记现在只是肤浅的认识，相信以后会有深入的感悟和更加熟练的应用

文章目录

1.循环神经网络简介

在这里插入图片描述
下面是各个参数的含义

$x_{t}$ 是t时刻的输入
$a_t$ 是时刻 $t$ 的隐层状态,由前一时刻的隐层状态和当前时刻的输入进行计算; $a_t$ 可以认为是网络的记忆状态，可以认为捕获之前所有时刻发生的信息。

$a_t=f(Ux_t+Wa_{t-1})$
$o_t$ 是t时刻的输出。

2.前向传播和随时间反向传播

在这里插入图片描述
$a^{<t>}=\tanh([a^{<t-1>}x^{t}][W_{aa}W_{ax}]+b_a)$

$\hat y^{t}= sigmoid(a^{<t>}w_y+b_y)$

$L^{<t>}(\hat y^{<t>}, y^{<t>})=-y^{<t>}\log \hat y^{<t>}+(1-y^{<t>})\log (1-\hat y^{<t>})$

$L(\hat y, y)=\displaystyle \sum_{t=1}^{T_y} L^{<t>}(\hat y^{<t>}, y^{<t>})$

3.梯度消失或者爆炸

由于网络结构变深，使得模型丧失了学习先前信息的能力。通俗的来说就是标准的循环神经网络虽然有了记忆但是很健忘。循环神经网络实际上是在长时间序列的各个时刻重复应用相同操作来构建非常深的计算图。例如W是一个在时间步中反复被乘的矩阵，比方说 $W$ 可以用于矩阵分解
$W^t = (Vdiag(\lambda)V^{-1})^{t}$ ; 如果特征值 $\lambda$ 不为1,大于1会导致爆炸，小于1会导致消失。

处理梯度爆炸问题可以用梯度裁剪的方法

处理梯度消失问题目前流行的一种方法是长短时记忆网络LSTM $\displaystyle Long Short-Term Memory$
[1]: 与先后顺序有关的数据我们称之为序列数据

未来可期-2018

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RNN

做这样的笔记现在只是肤浅的认识，相信以后会有深入的感悟和更加熟练的应用文章目录1.循环神经网络简介2.前向传播和随时间反向传播3.梯度消失或者爆炸1.循环神经网络简介下面是各个参数的含义xtx_{t}xt是t时刻的输入ata_tat是时刻ttt的隐层状态,由前一时刻的隐层状态和当前时刻的输入进行计算; ata_tat可以认为是网络的记忆状态，可以认为捕获之前所有时刻发生...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。