RNN预习-原理、特点、简单手算迭代更新例子_标准 rnn 在每个时间步更新隐藏层状态,公式为 ,其中为激活函数,是隐藏层到隐藏层-CSDN博客

本文链接：https://blog.csdn.net/Elle_Lee/article/details/145183697

自用。nlp作业整理

RNN原理

RNN的核心特征是“循环”，它通过将隐藏层的输出反馈到输入，实现对序列信息的记忆。RNN的基本结构包括以下部分：

RNN的隐藏状态更新公式为：

$h_t = f(W_{xh}x_t + W_{hh}h_{t-1} + b_h)$

其中：

输出层的计算公式为：

$o_t = g(W_{ho}h_t+b_o)$

其中：

RNN通过递归传递隐藏状态 $h_t$ ，可以捕捉序列的上下文信息。
隐藏状态 $h_t$ 的动态变化使得RNN能够在序列中保留长期信息，但也可能面临梯度消失或梯度爆炸问题。
在RNN的标准训练方式中，权重的更新是一次性计算完所有时间步之后再更新权重矩阵，而不是逐时间步计算和更新权重。这种训练方法称为 通过时间的反向传播（Backpropagation Through Time，BPTT）。

RNN的核心优势在于能够处理序列信息并捕捉上下文依赖关系，其训练过程包括前向传播、误差反向传播和参数更新。但原始RNN在处理长序列时存在梯度问题，因此实际应用中多采用改进的变体（如LSTM、GRU）。

输入序列： $x = [1, 2]$ ，长度 $T = 2$ （两步序列）
目标输出： $y = [0.4, 1.2]$
每个时间步的输入和隐藏状态维度均为1
激活函数为： $f(x) = x$ （为了便于手算，暂时忽略非线性）
初始隐藏状态： $h_0 = 0$
初始权重矩阵和偏置：
- 输入到隐藏层的权重 $W_{xh} = 0.5$
- 隐藏到隐藏层的权重 $W_{hh} = 0.8$
- 输出层权重 $W_{ho} = 1.0$
- 隐藏层偏置