机器学习greenhand的关于RNN原理的非严谨性的数学推导（3）

SKYWALKER2099

已于 2023-04-10 16:45:26 修改

阅读量89

点赞数

文章标签： rnn 深度学习 python

于 2023-04-10 16:35:36 首次发布

本文链接：https://blog.csdn.net/OSCAR_WU1636645469/article/details/130063600

版权

机器学习greenhand的关于RNN原理的非严谨性的数学推导（3）

—— SKYWALKER2099@CSDN 20230410

Before everything：
当我想要真正的了解rnn的原理，手写一遍当然是最好的了。但是网上大多数的纯numpy推导代码要不缺乏相应的完善的阐述，要不就是讲述了数学原理仿佛了解一二，但是实际上更不不知道如何按照他去实现手写的底层原理。
在查询资料学习的过程中，找到了rnn_lstm_from_scratch这一份代码，似乎很详细，但是类似的他的数学原理我还是不太能理解。【note:这份代码里面V,W和大多数图上，以及本文表示的意义是反的，需要注意看】所以在查询各种资料的过程中试图结合各种思路，把他的数学原理阐述明白。
由此下文主要以不严谨的方式阐述了我关于rnn的基本数学逻辑，或者说他的底层运行逻辑，展现出来。（文中的数学符号并不太专业。更加偏向于一个思路）
————
在这里插入图片描述

损失函数为(不考虑正则化项)：
$\sum_{t=1}^TL^{(t)} \tag{1}$
$L^{(t)} = -\Sigma_{i=1}^C p_i log(q_i) \tag{2}$
其中C代表类别数。 $p_i$ 为真实, $q_i$ 为预测.
比如:
TRUE:[0, 1, 0, 0, 0, 0, 0, 0, 0, 0],PRED:[0.1, 0.6, 0.3, 0, 0, 0, 0, 0, 0, 0]
则交叉熵为： −ln(0.6)≈0.51

二. backword pass

2.尝试求 $\partial L \over \partial W$

参考资料链接1(个人感觉有点错误)【浅析循环神经网络(RNN)的反向求导过程】
参考资料链接2【浅析循环神经网络(RNN)的反向求导过程】
参考资料链接3【RNN前向传播、反向传播与并行计算(非常详细)】
参考资料链接4【Recurrent Neural Networks Tutorial, Part 3 – Backpropagation Through Time and Vanishing Gradients】
参考资料链接5,最对编程有用的思路【RNN的反向传播推导与numpy实现】
W是回连到隐藏层的反馈矩阵,先回顾一下几个公式:
$HOUT^{(t)}=f(Ux^{(t)}+Ws^{(t-1)})=f(Ux^{(t)}+WHOUT^{(t-1)}),这里的激活函数f是tanh$
$HINW^{(t)} =W*HOUT^{(t-1)} \tag{3.9}$

${\partial L \over \partial W} = {\partial \sum_t L^{(t)}\over \partial W} =交换求和和偏分顺序 = \sum_{t=1}^{T=4}{\partial L^{(t)}\over \partial a^{(t)}}{\partial a^{(t)} \over \partial HOUT^{(t)}}{\partial HOUT^{(t)} \over \partial W} \tag{46}$
而:
$HOUT^{(t)}$
$f(Ux^{(t)}+WHOUT^{(t-1)})$
$=f(Ux^{(t)}+W[f(Ux^{(t-1)}+W[f(Ux^{(t-2)}+W[..[...[f(Ux^{(t)}+WHOUT^{(0)})])]]])]) \tag{47}$
即 $HOUT^{(t)}$ 可以表示为:
$HOUT^{(t)}=HOUT^{(t)}(HOUT^{(t)},HOUT^{(t-1)},HOUT^{(t-2)},HOUT^{(t-3)}...,HOUT^{(1)})\tag{48}$
是一个关于多个变量的函数
那么这里的最后一项就涉及到所有的隐藏状态.
所以由链式法则可以分开写(这里个人认为是参考资料1公式(8)错误的来源):
$参考资料链接 1 写为 :$
${\partial HOUT^{(t)} \over \partial W} =\sum_{k=1}^t{\partial HOUT^{(t)} \over \partial HOUT^{(k)}}{\partial HOUT^{(k)} \over \partial W} \tag{49.1}$

${\partial HOUT^{(t)} \over \partial HOUT^{(k)}} = {\partial HOUT^{(t)} \over \partial HOUT^{(t-1)}} {\partial HOUT^{(t-1)} \over \partial HOUT^{(t-2)}}... {\partial HOUT^{(k+1)} \over \partial HOUT^{(t)}} \tag{49.1}$
$个人认为为 :$
${\partial HOUT^{(t)} \over \partial W} ={\partial f(Ux^{(t)}+WHOUT^{(t-1)}) \over \partial W} [f里面的就是HIN^{(t)}]\tag{49.2}$
${\partial f(Ux^{(t)}+Wf(Ux^{(t-1)}+WHOUT^{(t-2)})) \over \partial W}$
$......$
${\partial f(Ux^{(t)}+Wf(Ux^{(t-1)}+W(f(...f(Ux^{(1)}+WHOUT^{(0[也就是初始态])})))))) \over \partial W}$
$这里看起来非常的复杂$

${\partial HOUT^{(t)} \over \partial HOUT^{(t)}}{\partial HOUT^{(t)} \over \partial W} + {\partial HOUT^{(t)} \over \partial HOUT^{(t-1)}}{\partial HOUT^{(t-1)} \over \partial W} + {\partial HOUT^{(t)} \over \partial HOUT^{(t-2)}}{\partial HOUT^{(t-2)} \over \partial W} + .... + {\partial HOUT^{(t)} \over \partial HOUT^{(1)}}{\partial HOUT^{(1)} \over \partial W}$

$即：\sum_{k=1}^{t} {\partial HOUT^{(t)} \over \partial HOUT^{(k)}} {\partial HOUT^{(k)} \over \partial W} \tag{49.2}$

综上有:
${\partial HOUT^{(t)} \over \partial W} =\sum_{k=1}^{t} {\partial HOUT^{(t)} \over \partial HOUT^{(k)}} {\partial HOUT^{(k)} \over \partial W} \tag{50}$
将(50)代入(46)得到:
${\partial L \over \partial W} = {\partial \sum_t L^{(t)}\over \partial W} =交换求和和偏分顺序 = \sum_{t=1}^{T=4}{\partial L^{(t)}\over \partial a^{(t)}}{\partial a^{(t)} \over \partial HOUT^{(t)}}{\partial HOUT^{(t)} \over \partial W}$
$\sum_{t=1}^{T=4}{\partial L^{(t)}\over \partial a^{(t)}}{\partial a^{(t)} \over \partial HOUT^{(t)}}(\sum_{k=1}^{t} {\partial HOUT^{(t)} \over \partial HOUT^{(k)}} {\partial HOUT^{(k)} \over \partial W}) \tag{51}$
第一个因子已经在之前计算出来了.
第二个因子由(4.1):
$a^{(t)}=V * HOUT^{(t)}$
以及求导公式得到:
${\partial a^{(t)} \over \partial HOUT^{(t)}} = V \tag{52}$

后面的这个式子非常的复杂,所以尝试把他分解开来看看有什么规律:
假设t从1开始：
$t = 1 时 :$
${\partial L^{(1)}\over \partial a^{(1)}}*V*\{{\partial HOUT^{(1)} \over \partial HOUT^{(1)}}{\partial HOUT^{(1)} \over \partial W}\} =由于初始态HOUT^{(1)}为0,所以 = [0]$
$t = 2 时 :$
${\partial L^{(2)}\over \partial a^{(2)}}*V*\{{\partial HOUT^{(2)} \over \partial HOUT^{(2)}}{\partial HOUT^{(2)} \over \partial W} + {\partial HOUT^{(2)} \over \partial HOUT^{(1)}}{\partial HOUT^{(1)} \over \partial W} \}$
$t = 3 时 :$
${\partial L^{(3)}\over \partial a^{(3)}}*V*\{{\partial HOUT^{(3)} \over \partial HOUT^{(3)}}{\partial HOUT^{(3)} \over \partial W} + {\partial HOUT^{(3)} \over \partial HOUT^{(2)}}{\partial HOUT^{(2)} \over \partial W} + {\partial HOUT^{(3)} \over \partial HOUT^{(1)}}{\partial HOUT^{(1)} \over \partial W} \}$
$t = 4 时 (这里就是这个例子的最后一个时刻, 在范围变成 (0 - 3) 的时候就是 t = 3 是最后一个时刻) :$
${\partial L^{(4)}\over \partial a^{(4)}}*V*\{{\partial HOUT^{(4)} \over \partial HOUT^{(4)}}{\partial HOUT^{(4)} \over \partial W} +{\partial HOUT^{(4)} \over \partial HOUT^{(3)}}{\partial HOUT^{(3)} \over \partial W}+{\partial HOUT^{(4)} \over \partial HOUT^{(2)}}{\partial HOUT^{(2)} \over \partial W}+{\partial HOUT^{(4)} \over \partial HOUT^{(1)}}{\partial HOUT^{(1)} \over \partial W}\}$
最后的结果就是这四个式子的和
由
$HOUT^{(t)}$
$f(Ux^{(t)}+WHOUT^{(t-1)})$
以及:
$tanh'(x) = 1-tanh^{2}(x)$
${\partial HOUT^{(t)} \over \partial HOUT^{(t-1)}} = (1 - (HOUT^{(t)})^2)*(W)$
${\partial HOUT^{(t)} \over \partial W} = (1 - (HOUT^{(t)})^2)*((HOUT^{(t-1)}))$
我们试图去求解上面的式子，首先发现太复杂了，根本不实际，而且其中每一个 ${\partial HOUT^{(t)} \over \partial HOUT^{(k)}}$ 又形成了一组链式法则，也就是 $\prod_{i=k+1}^{t}{\partial HOUT^{(i)} \over \partial HOUT^{(i-1)}}$ (也就是所谓梯度消失梯度爆炸的地方)，但是这种复杂的东西对我们编程理解他的原理并没什么用，我们必须换一种角度来处理这个问题。
原来的思路是如同(46):
${\partial L \over \partial W} = {\partial \sum_t L^{(t)}\over \partial W} = \sum_{t=1}^{T=4}{\partial L^{(t)}\over \partial a^{(t)}}{\partial a^{(t)} \over \partial HOUT^{(t)}}{\partial HOUT^{(t)} \over \partial W} \tag{53}$
现在改成：
${\partial L \over \partial W} = \sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}({\partial HIN^{(t)} \over \partial W})^{T} = \sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}(HOUT^{(t-1)})^{T} \tag{55}$
这里写转置是借鉴参考资料链接5，这里由于是矩阵必然是转置的。之前式子都是简略的推导并没有在意这个内容。并且因为这里是下一个 $L^{(t)}$ 可能仍旧和上一个 $HOUT^{(t-1)}$ 有关，所以不能把 $L^{(t)}$ 分开来求求和。
令其中：
$\delta^{(t)}={\partial L \over \partial HIN^{(t)}}=({\partial HOUT^{(t)} \over \partial HIN^{(t)}})^{T}({\partial L^{(t)} \over \partial HOUT^{(t)}}) \tag{56}$
Note: 这里的 $\delta^{(t)}$ 就是最终程序里面的d_f
由：
${\partial HOUT^{(t)} \over \partial HIN^{(t)}} = (1 - (HOUT^{(t)})^2) = tanh'(HIN^{(t)}) \tag{57}$
$HOUT^{(t)}和HIN^{(T)}都是大小为Hidden\_size*1的矩阵，所以最后相互求导之后应该是一个雅各比矩阵$

${\partial HOUT^{(t)} \over \partial HIN^{(t)}} =\begin{pmatrix} {\partial HOUT_1^{(t)}\over \partial HIN_1^{(t)}},{\partial HOUT_1^{(t)}\over \partial HIN_2^{(t)}},...，{\partial HOUT_1^{(t)}\over \partial HIN_{hidden\_size}^{(t)}}\\ ....\\ {\partial HOUT_{hidden\_size}^{(t)}\over \partial HIN_1^{(t)}},{\partial HOUT_{hidden\_size}^{(t)}\over \partial HIN_2^{(t)}},...，{\partial HOUT_{hidden\_size}^{(t)}\over \partial HIN_{hidden\_size}^{(t)}}\\ \end{pmatrix}\tag{58}$

并且由依赖关系，他就是一个对角阵，也就是对角线以外的全是0.
所以：

$({\partial HOUT^{(t)} \over \partial HIN^{(t)}})^{T} = diag(tanh'(HIN^{(t)}))\tag{59}$

又由（这块是它能够推下去以及之前那个思路写的不太对的重点原因）：
在前向传播时， $HOUT^{(t)}$ 在当前时刻通过 $a^{(t)}$ 影响
，同时 $HOUT^{(t)}$ 也会传给下一时刻去影响L，所以这里的导数由两部分组成，一部分直接来自 $a^{(t)}$ ；另一部分来自 $HIN^{(t+1)}$ ，因为 $HIN^{(t+1)}$ 的计算依赖于 $HOUT^{(t)}$ 。可以看到，梯度不仅来自于当前输出，还来自于下一时刻的输出.——参考资料链接5

所以
$({\partial L^{(t)} \over \partial HOUT^{(t)}})=({{\partial a^{(t)}} \over \partial HOUT^{(t)}})^{T}{{\partial L} \over \partial a^{(t)}}+({{\partial HIN^{(t+1)}} \over \partial HOUT^{(t)}})^{T}{{\partial L}\over \partial HIN^{(t+1)}}\tag{60}$

$V^{T}(\hat{y}^{(t)}-{y}^{(t)}) + W^{T} \delta^{(t+1)}$
其中 $\hat{y}^{(t)}$ 是预测值， ${y}^{(t)}$ 是真实值，前面的结果是由之前1里面求出来的。按照本文的符号即：

$V^{T}(\hat{o}^{(t)}-{p}^{(t)}) + W^{T} \delta^{(t+1)}$
可以看出他的递推关系，这样就可以编程了。
综上：
${\partial L \over \partial W}=\sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}({\partial HIN^{(t)} \over \partial W})^{T}=\sum_{t=1}^{T=4} (\delta^{(t)}*(HOUT^{(t-1)})^{(T)})$

$=\sum_{t=1}^{T=4}((diag(tanh'(HIN^{(t)})))*(V^{T}(\hat{o}^{(t)}-{p}^{(t)})+ W^{T} \delta^{(t+1)}))(HOUT^{(t-1)})^{(T)}\tag{61}$

终于，回到这个例子：
这里时间范围命名为1<=t<=4
t=4:
$((diag(tanh'(HIN^{(4)})))*(V^{T}(\hat{o}^{(4)}-{p}^{(4)}) + 0))(HOUT^{(4-1)})^{(T)}$
$(HOUT^{(4)})^{2})))* (\begin{pmatrix} [0.1,0.3,0.2]\\ [0.5,0.8,0.2]\\ \end{pmatrix}^{T} \begin{pmatrix}[0.33-1,0.67]\\\end{pmatrix} +0) (\begin{pmatrix} [0.1]\\ [0.2]\\ [0.3]\\ \end{pmatrix})^{(T)}\tag{62}$

这里没有 $\delta^{(t+1)}$ 是因为 $O^{4}$ 没有下一个 $L^{5}$ 可以影响了。这里具体的值就不计算出来了。
以此类推：
t=3:
$((diag(tanh'(HIN^{(3)})))*(V^{T}(\hat{o}^{(3)}-{p}^{(3)}) + W^{T} \delta^{(3+1)}))(HOUT^{(3-1)})^{(T)}\tag{63}$
t=2:
$((diag(tanh'(HIN^{(2)})))*(V^{T}(\hat{o}^{(2)}-{p}^{(2)}) + W^{T} \delta^{(2+1)}))(HOUT^{(2-1)})^{(T)}\tag{64}$
t=1:
$((diag(tanh'(HIN^{(1)})))*(V^{T}(\hat{o}^{(1)}-{p}^{(1)}) + W^{T} \delta^{(1+1)}))(HOUT^{(0)})^{(T)}\tag{65}$
这里的 $HOUT^{(0)})^{(T)}$ 就是初始态，一般可以设为[0].

3.尝试求 $\partial L \over \partial U$

与求W的偏导类似，思路为：
${\partial L \over \partial U} = \sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}({\partial HIN^{(t)} \over \partial U})^{T} = \sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}(X^{(t-1)})^{T} \tag{66}$
由(56)
$\delta^{(t)} = {\partial L \over \partial HIN^{(t)}}=({\partial HOUT^{(t)} \over \partial HIN^{(t)}})^{T}({\partial L^{(t)} \over \partial HOUT^{(t)}}) \tag{56}$
于是(66)变成：
${\partial L \over \partial U} = \sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}({\partial HIN^{(t)} \over \partial U})^{T} = \sum_{t=1}^{T=4}\delta^{(t)}(X^{(t-1)})^{T} \tag{67}$
$=\sum_{t=1}^{T=4}((diag(tanh'(HIN^{(t)})))*(V^{T}(\hat{o}^{(t)}-{p}^{(t)}) + W^{T} \delta^{(t+1)}))(x^{(t-1)})^{(T)}\tag{68}$
这里的计算与(62)到(65)是类似的，就不再写开来了。

4.尝试求 $\partial L \over \partial b$

在上述的式子里面都没有提到b，偏置。如果将之前的定义式子改成：
这里的b都是和U,V,W一样是常矩阵，不随t改变，一次梯度下降回传更新一次。
$HOUT^{(T)}=f(Ux^{(t)}+Ws^{(t-1)}+b\_hidden)$
$o^{(t)}= Softmax(a^{(t)}) = Softmax(V * HOUT^{(t)}+b\_out)$
也就是这里
$Hin^{(t)} = Ux^{(t)}+Ws^{(t-1)}+b\_hidden$
$a^{(t)}=V * HOUT^{(t)}+b\_out$
相较于(4.1)式等发生了改变。
那么我需要求更多：
3.1
${\partial L \over \partial b\_out}={\partial L \over \partial a^{(t)}}{\partial a^{(t)} \over \partial {b\_out}^{(t)}}={\partial L \over \partial a^{(t)}}*1 \tag{69}$
前项与之前的(38)求出来的结论是一样的。
3.2
${\partial L \over \partial b\_hidden}=\sum_{t=1}^{T=4}{\partial L \over \partial HIN^{(t)}}{\partial HIN^{(t)} \over \partial {b\_hidden}^{(t)}}=\sum_{t=1}^{T=4}{\partial L \over \partial HIN^{(t)}}*1 \tag{70}$
与(61)式类似，即：
$\sum_{t=1}^{T=4}{\partial L\over \partial HIN^{(t)}}=\sum_{t=1}^{T=4}\delta^{(t)}$
也就是程序中的：

# Backpropagate through non-linearity
d_f = tanh(hidden_states[t], derivative=True) * d_h
d_b_hidden += d_f

5.求得了所有的梯度，开始下降$

这里只需要更新公式：
$\lambda {\partial L \over \partial V} \tag{71}$
$\lambda {\partial L \over \partial W} \tag{72}$
$\lambda {\partial L \over \partial U} \tag{73}$
$b\_hidden <= b\_hidden - \lambda {\partial L \over \partial b\_hidden} \tag{74}$
$b\_out <= b\_hidden - \lambda {\partial L \over \partial b\_out} \tag{75}$

6.更加深入

我们总提到神经网络加速，gpu等等，但是对于现在手写的神经网络显然不会调用gpu的，同时对于我这样一个机器学习小白来说，我更不能理解同样的原理怎么哪些优化完的库里面与我做的有什么不同能够用到gpu。从FPGA的角度来说，加速就是并行计算。但是往往在这些手写的神经网络里面（网上也可以找到大把的numpy手写全连接神经网络这种内容），并没有任何相关的思路。
直到在查找资料的时候找到了参考资料链接3【RNN前向传播、反向传播与并行计算(非常详细)】
如下：
在这里插入图片描述