1. 从神经网络谈起
了解神经网络的都知道,神经网络作为一种非线性模型,在监督学习领域取得了state-of-art的效果,其中反向传播算法的提出居功至伟,到如今仍然是主流的优化神经网络参数的算法. 递归神经网络、卷积神经网络以及深度神经网络作为人工神经网络的"变种",仍然延续了ANN的诸多特质,如权值连接,激励函数,以神经元为计算单元等,只不过因为应用场景的不同衍生了不同的特性,如:处理变长数据、权值共享等。为了介绍RNN,先简单的介绍ANN. ANN的结构很容易理解,一般是三层结构(输入层-隐含层-输出层). 隐含层输出 o j o_j oj 和输出层输出 o k o_k ok如下。其中 n e t j net_j netj为隐含层第 j j j个神经元的输入, u u u为输入层和隐含层的连接权值矩阵, v v v为隐含层和输出层之间的连接权值矩阵.
$ \begin{align} o_j & = f(net_j) \
o_k & = f(net_k) \
net_j & =\sum_i(x_{i}u_{i,j})+b_j \
net_k & =\sum_j(o_{j}v_{j,k})+b_k \end{align} $$
定义损失函数为 E p = 1 2 ∑ k ( o k − d k ) 2 E_p=\frac{1}{2}\sum_k (o_k - d_k)^2 Ep=21∑k(ok−dk)2 ,其中 p p p为样本下标, o k o^k ok为第 k k k个输出层神经元的输出, d k d^k dk为样本在第 k k k个编码值。然后分别对参数 v j , k v_{j,k} vj,k、 u i , j u_{i,j} ui,j 进行求导,可得:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ \frac{\partial…
从对 ∂ E p ∂ u i ,