循环神经网络RNN原理梳理

 RNN结构

上图为Tx​=Ty,T为序列长度,x^{<t>}表示输入x的第t个时间步,
Tx​=Ty的体系结构可以是提取句子中人名,例如句子“小明去学校”,句子中每个词先调整为one-hot编码,然后y^{<t>}为标签,0代表不是人名,1代表是。或者通过已有一堆英文人名,构建字符级语言模型来生成新的名称。

前向传播

上图为计算公式,其中W_{ax}代表权重,前面a代表计算的是激活值a^{<t>},x代表权重后面跟的是x^{<t>}

首先先通过RNN的前向传播,如果输入的数据序列经过10个时间步,那么将复制RNN单元10次,每个单元将前一个单元中的隐藏状态a^{<t-1>}和当前时间步的输入数据x^{<t>}作为输入。 它为此时间步输出隐藏状态a^{<t>}和预测y^{<t>}

RNN反向传播

循环神经网络可以看作是单元的重复,首先要实现单个时间步的计算

就像在完全连接的神经网络中一样,成本函数J的导数通过链式法则计算,通过RNN向后传播。

链式法则通过计算来更新Wax,Waa,ba

更新参数

更新Wax、Waa、Wya、ba、by

模型结构总结

模型的结构如下:

  • 初始化参数

  • 循环:

    • 前向传播计算损失

    • 反向传播计算关于损失的梯度

    • 修剪梯度以免梯度爆炸

    • 用梯度下降更新规则更新参数。

  • 返回学习后了的参数

  • 11
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 10
    评论
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lovelife110

你的鼓励是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值