【在线直播】《TensorFlow实战》作者、PPmoney大数据算法总监黄文坚老师即将开课:《使用TensorFlow创建可自动玩游戏的DQN模型》,本次课程集中讲解Deep-Q Network及其TensorFlow的实现。点击报名
近些年来,随着深度学习的崛起,RNN模型也变得非常热门。如果把RNN模型按照时间轴展开,它也类似其它的深度神经网络模型结构。因此,我们可以参照已有的方法训练RNN模型。
现在最流行的一种RNN模型是LSTM(长短期记忆)网络模型。这里有一些关于LSTM的背景知识介绍文章,Karpathy的博客和Chris Olah的博客。
尽管我们可以借助Tensorflow、Torch、Theano等深度学习库轻松地训练模型,而不再需要推导反向传播的过程,但是逐步推导LSTM模型的梯度并用反向传播算法来实现,对我们深刻地理解模型是大有裨益的。
因此,我们首先按照LSTM的公式实现正向传播计算过程,然后推导网络模型的梯度计算过程,最后用numpy来实现模型的求解。
LSTM正向传播
单个LSTM单元的公式如下:
用代码可以表示为:
H = 128 # LSTM 层神经元的数量
D = ... # 输入数据的维度 == 词表的大小
Z = H + D # 因为需要把LSTM的状态与输入数据拼接
model = dict(
Wf=np.random.randn(Z, H) / np.sqrt(Z / 2.),
Wi=np.random.randn(Z, H) / np.sqrt(Z / 2.),
Wc=np.random.randn(Z, H) / np.sqrt(Z / 2.),
Wo=np.random.randn(Z, H) / np.sqrt(Z / 2.),
Wy=np.random.randn(H, D) / np.sqrt(D / 2.),
bf=np.zeros((1, H)),
bi=np.zeros((1, H)),
bc=np.zeros((1, H)),
bo=np.zeros((1, H)),
by=np.zeros((1, D))
)
在上面,我们定义了LSTM单元的结构。上述公式需要注意的一点是,我们把隐藏层上一步的状态h与当前的输入x相连接,因此LSTM单元的输入是 Z = H + D。另外,我们LSTM单元的输出层有H个神经元,因此每个权重矩阵的维度是 ZxH,偏置向量的维度是 1xH。
Wy 和 by略有不同,这两项是全连接层的参数,它们的下一级是softmax层。最终的输出结果将是词表中每个词语出现的概率分布,维度为 1xD。因此,Wy的维度必须是 HxD,by的维度必须是 1xD。
def lstm_forward(X, state):
m = model
Wf, Wi, Wc, Wo, Wy = m['Wf'], m['