RNN模型
我们先来看一个RNN经典结构,图1展示了一个典型按时间展开后的RNN结构。
从图1可以看出,RNN在每一个时刻都有一个输入Xt
,然后根据当前节点的状态At
计算输出值ht
,而At
是根据上一时刻的状态At-1
和当前的输入Xt
共同决定的。和卷积神经网络卷积核或池化核的参数共享类似,这里RNN结构中的参数在不同时刻中也是共享的。
1.2.1 RNN前向传播过程
图2 RNN的前向传播的计算过程
如图2所示,假设节点状态的维度为2
,节点的输入和输出维度为1
,那么在循环体的全连接层神经网络的输入维度为3
,也就是将上一时刻的状态与当前时刻的输入拼接成一维向量作为循环体的全连接层神经网络的输入,在这里t0
时刻的节点状态初始化为[0.0, 0.0]
,t0
时刻的节点输入为[1.0]
,拼接之后循环体的全连接层神经网络的输入为[0.0, 0.0, 1.0]
,循环体中的全连接层的权重表示为二维矩阵[[0.1, 0.2], [0.3, 0.4], [0.5, 0.6]]
,偏置项为[0.1, -0.1]
,我们可以看到权重矩阵和偏置项在t0
和t1
时刻的循环体中是一样的,这也说明了RNN结构中的参数在不同时刻中也是共享的。经过循环体中的全连接层神经网络后节点的状态改变为tanh([0.6, 0.5]) = [0.537, 0.462]
,当前节点状态的输出作为下一个节点状态的输入。
为了将当前时刻的状态转变为节点的最终输出,RNN中还有另外一个全连接神经网络来计算节点输出,在图2中被表示为[0.537, 0.462] * [1.0, 2.0] + [0.1] = [1.56]
,用于输出的全连接层权重为[1.0, 2.0]
,偏置项为[0.1]
,1.56
表示为t0
时刻节点的最终输出。
得到RNN的前向传播结果之后,和其他神经网络类似,定义损失函数,使用反向传播算法和梯度下降算法训练模型,但RNN唯一的区别在于:由于它每个时刻的节点都有一个输出,所以RNN的总损失为所有时刻(或部分时刻)上的损失和。