LSTM的反向传播过程推导

最新推荐文章于 2024-07-12 00:46:55 发布

csdn_csdn__AI

最新推荐文章于 2024-07-12 00:46:55 发布

阅读量8k

点赞数 1

文章标签： LSTM RNN

本文链接：https://blog.csdn.net/heyc861221/article/details/80128412

版权

本文介绍了LSTM的正向传播计算和反向传播的推导过程，包括关键的梯度计算，并展示了如何结合正反向传播训练模型。通过实例展示了训练一个预测字符的LSTM模型，验证了模型的有效性。

摘要由CSDN通过智能技术生成

【在线直播】《TensorFlow实战》作者、PPmoney大数据算法总监黄文坚老师即将开课：《使用TensorFlow创建可自动玩游戏的DQN模型》，本次课程集中讲解Deep-Q Network及其TensorFlow的实现。点击报名

近些年来，随着深度学习的崛起，RNN模型也变得非常热门。如果把RNN模型按照时间轴展开，它也类似其它的深度神经网络模型结构。因此，我们可以参照已有的方法训练RNN模型。

现在最流行的一种RNN模型是LSTM（长短期记忆）网络模型。这里有一些关于LSTM的背景知识介绍文章，Karpathy的博客和Chris Olah的博客。

尽管我们可以借助Tensorflow、Torch、Theano等深度学习库轻松地训练模型，而不再需要推导反向传播的过程，但是逐步推导LSTM模型的梯度并用反向传播算法来实现，对我们深刻地理解模型是大有裨益的。

因此，我们首先按照LSTM的公式实现正向传播计算过程，然后推导网络模型的梯度计算过程，最后用numpy来实现模型的求解。

LSTM正向传播

单个LSTM单元的公式如下：

用代码可以表示为：

H = 128 # LSTM 层神经元的数量
D = ... # 输入数据的维度 == 词表的大小
Z = H + D # 因为需要把LSTM的状态与输入数据拼接

model = dict(
    Wf=np.random.randn(Z, H) / np.sqrt(Z / 2.),
    Wi=np.random.randn(Z, H) / np.sqrt(Z / 2.),
    Wc=np.random.randn(Z, H) / np.sqrt(Z / 2.),
    Wo=np.random.randn(Z, H) / np.sqrt(Z / 2.),
    Wy=np.random.randn(H, D) / np.sqrt(D / 2.),
    bf=np.zeros((1, H)),
    bi=np.zeros((1, H)),
    bc=np.zeros((1, H)),
    bo=np.zeros((1, H)),
    by=np.zeros((1, D))
)

在上面，我们定义了LSTM单元的结构。上述公式需要注意的一点是，我们把隐藏层上一步的状态h与当前的输入x相连接，因此LSTM单元的输入是 Z = H + D。另外，我们LSTM单元的输出层有H个神经元，因此每个权重矩阵的维度是 ZxH，偏置向量的维度是 1xH。

W_y 和 b_y略有不同，这两项是全连接层的参数，它们的下一级是softmax层。最终的输出结果将是词表中每个词语出现的概率分布，维度为 1xD。因此，W_y的维度必须是 HxD，b_y的维度必须是 1xD。

def lstm_forward(X, state):
    m = model
    Wf, Wi, Wc, Wo, Wy = m['Wf'], m['

最低0.47元/天解锁文章

csdn_csdn__AI

关注

1
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫