循环神经网络RNN原理梳理

最新推荐文章于 2024-09-15 08:30:00 发布

lovelife110

最新推荐文章于 2024-09-15 08:30:00 发布

阅读量1.6k

点赞数 11

分类专栏： AI

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33873431/article/details/101361990

版权

AI 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

RNN结构

上图为Tx=Ty，T为序列长度， $x^{<t>}$ 表示输入x的第t个时间步，
Tx=Ty的体系结构可以是提取句子中人名，例如句子“小明去学校”，句子中每个词先调整为one-hot编码，然后 $y^{<t>}$ 为标签，0代表不是人名，1代表是。或者通过已有一堆英文人名，构建字符级语言模型来生成新的名称。

前向传播

上图为计算公式，其中 $W_{ax}$ 代表权重，前面a代表计算的是激活值 $a^{<t>}$ ，x代表权重后面跟的是 $x^{<t>}$

首先先通过RNN的前向传播，如果输入的数据序列经过10个时间步，那么将复制RNN单元10次，每个单元将前一个单元中的隐藏状态 $a^{<t-1>}$ 和当前时间步的输入数据 $x^{<t>}$ 作为输入。它为此时间步输出隐藏状态 $a^{<t>}$ 和预测 $y^{<t>}$ 。

RNN反向传播

循环神经网络可以看作是单元的重复，首先要实现单个时间步的计算

就像在完全连接的神经网络中一样，成本函数J的导数通过链式法则计算，通过RNN向后传播。

链式法则通过计算来更新Wax，Waa，ba

更新参数

更新Wax、Waa、Wya、ba、by

模型结构总结

模型的结构如下：

初始化参数
循环：
- 前向传播计算损失
- 反向传播计算关于损失的梯度
- 修剪梯度以免梯度爆炸
- 用梯度下降更新规则更新参数。
返回学习后了的参数

关注

11
点赞
踩
6

收藏

觉得还不错? 一键收藏
打赏
10
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 10

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

lovelife110 你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。