DL_Notebook 4.1_RNN基础

最新推荐文章于 2023-07-09 14:23:52 发布

Edeeen1

最新推荐文章于 2023-07-09 14:23:52 发布

阅读量188

点赞数

分类专栏： Pytorch深度学习文章标签：神经网络 python

本文链接：https://blog.csdn.net/weixin_43124455/article/details/104409288

版权

文章目录循环神经网络从0开始实现循环神经网络裁剪梯度clip gradient定义预测函数定义模型训练函数训练模型并创作歌词循环神经网络的简洁实现循环神经网络从0开始实现循环神经网络一个机器翻译预测的例子(伯禹学习的例子 www.boyuai.com)来体会循环神经网络裁剪梯度clip gradient循环神经网络很容易梯度衰减或梯度爆炸，因为它的反向传播方式是通过时间反向传播，分析模型...

摘要由CSDN通过智能技术生成

文章目录

循环神经网络基础

循环神经网络基础

recurrent neural network
下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列，预测序列的下一个字符。循环神经网络引入一个隐藏变量 $H$ ，用 $H_{t}$ 表示 $H$ 在时间步 $t$ 的值。 $H_{t}$ 的计算基于 $X_{t}$ 和 $H_{t-1}$ ，可以认为 $H_{t}$ 记录了到当前字符为止的序列信息，利用 $H_{t}$ 对序列的下一个字符进行预测。
Image Name

循环神经网络的构造

我们先看循环神经网络的具体构造。假设 $\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$ 是时间步 $t$ 的小批量输入， $\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$ 是该时间步的隐藏变量，则：

$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$
(广播机制加法）

其中， $\boldsymbol{W}_{xh} \in \mathbb{R}^{d \times h}$

最低0.47元/天解锁文章

Edeeen1

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DL_Notebook 4.1_RNN基础

文章目录循环神经网络从0开始实现循环神经网络裁剪梯度clip gradient定义预测函数定义模型训练函数训练模型并创作歌词循环神经网络的简洁实现循环神经网络从0开始实现循环神经网络一个机器翻译预测的例子(伯禹学习的例子 www.boyuai.com)来体会循环神经网络裁剪梯度clip gradient循环神经网络很容易梯度衰减或梯度爆炸，因为它的反向传播方式是通过时间反向传播，分析模型...
复制链接

扫一扫