【机器学习】反向传播神经网络推导

最新推荐文章于 2021-01-20 21:21:45 发布

artzers

最新推荐文章于 2021-01-20 21:21:45 发布

阅读量1.2k

点赞数

分类专栏：模式识别与机器学习文章标签：机器学习神经网络

本文链接：https://blog.csdn.net/lpsl1882/article/details/52280908

版权

模式识别与机器学习专栏收录该内容

46 篇文章 6 订阅

订阅专栏

简单的反向传播神经网络可以说就是将基本单元如感知器，组成层级结构，划分出输入层、隐含层、输出层；不同层之间通过连接来形成耦合，从而组成一个有功用的网状算法结构。
感知器可以通过迭代计算来逼近想获取的结果，迭代过程中感知器不断和计算结果反馈，较为常用的迭代计算方法有梯度下降法。当感知器组成网络之后，每个感知器如果获得结果反馈就比较麻烦，这里就要用到反向传播方法。
假设我们有一个计算过程 $y=a * b+c$ ，其中 $a,b,c$ 都是输入变量，y是输出。按照梯度下降法，针对 $a$ 的迭代计算过程为 $a_{k+1}=a_{k}+\eta\frac{\partial y}{\partial a} = a_{k}-\eta b$ 。其中 $\eta$ 是学习率，是一个经验值。以上对于b和c同理。如果我们把乘法提升到加法的上一层,每一层之间用connect连接来耦合：

c o n n e c t 1 : q = a * b c o n n e c t 2 : y = q + c

$connect1: q=a * b \\ connect2: y=q+c$
那么

a,b,c $a,b,c$ 的迭代计算过程都要相应变化：

c k + 1 = c k - η * 1 g r a d (q) = 1, q k + 1 = q k - η * 1 a k + 1 = a k - η g r a d (q) * b

$c_{k+1}=c_k-\eta * 1 \\ grad(q)=1,q_{k+1}=q_k-\eta * 1 \\ a_{k+1}=a_k - \eta grad(q)* b$
注意到这里将

q=a∗b $q=a*b$ 单独提取出来，其实是可以用微积分的链式法则来推导的。另外，

η $\eta$ 一般是个很小的值，是不能传递的，因此每一层之间要传递与

η $\eta$ 无关的提低。实际应用中需要使用链式法则来计算神经网络的反馈。
一般而言神经网络每一层的输出是一堆数据，这里我只推导简单的反向传播神经网络。前向单次计算过程是：先计算连接，输入为上次的输出；然后用H函数激活连接计算后的结果，作为下一次的输入。第k层的感知器输入之后需要经过滤波，定义为激活函数

Oq=H(Q1,Q2...) $O_{q}=H(Q_1,Q_2...)$ ，层之间的连接函数为

[Q1,Q2...]=∑wqpIq $[Q_1,Q_2...]=\sum{w_{qp}I_q}$ 。其中

Iq=Op $I_q=O_p$ 。我们要反馈修正的是权值w。这里定义神经网络层名为j->p->q。
设总的代价函数为

c o s t (O) = 1 2 (T - O) 2

$cost(O) = \frac{1}{2}(T-O)^2$ ，则根据链式法则，修正量计算为

g r a d (w q p) = \partial c o s t ( O ) \partial w q p = \partial c o s t ( O ) \partial O q \partial O q \partial Q q \partial Q q \partial w q p = \partial c o s t ( O ) \partial O q Δ H q I q = - (T - O q) Δ H q (Q q) I q

$grad (w_{qp})=\frac{\partial cost(O)}{\partial w_{qp}}=\frac{\partial cost(O)}{\partial O_{q}}\frac{\partial O_{q}}{\partial Q_{q}}\frac{\partial Q_{q}}{\partial w_{qp}}\\ = \frac{\partial cost(O)}{\partial O_{q}}\Delta H_{q}I_{q}\\=-(T-O_q)\Delta H_{q}(Q_q)I_{q}$
其中T表示目标输出，是人工标记结果。

Oq $O_q$ 是神经网络输出层的输出。输出层没有前向连接，修正量为

Δwqp=−ηgrad(wqp) $\Delta w_{qp}=-\eta grad(w_{qp})$ 。
然后是隐含层，隐含层是中间层，受到前方多重连接的影响，且不知道中间目标输出T应该是多少，因此需要从输出层向前递推，其中

Nq $N^{q}$ 是第q层的感知器数量：

g r a d (w p j) = \partial c o s t ( O ) \partial O p \partial O p \partial Q p \partial Q p \partial w p j = \sum q = 1 N q \partial c o s t ( O ) \partial Q q \partial Q q \partial O p Δ H p I p = \sum q = 1 N q \partial c o s t ( O ) \partial Q q w q p Δ H p I p = \sum q = 1 N q \partial c o s t ( O ) \partial O q \partial O q \partial Q q w q p Δ H p I p = \sum q = 1 N q g r a d ( w q p ) I q w q p Δ H p I p

$grad (w_{pj})=\frac{\partial cost(O)}{\partial O_{p}}\frac{\partial O_{p}}{\partial Q_{p}}\frac{\partial Q_{p}}{\partial w_{pj}}\\=\sum_{q=1}^{N^{q}}\frac{\partial cost(O)}{\partial Q_{q}}\frac{\partial Q_{q}}{\partial O_p}\Delta H_{p}I_p \\ =\sum_{q=1}^{N^{q}}\frac{\partial cost(O)}{\partial Q_q}w_{qp}\Delta H_{p}I_p \\ =\sum_{q=1}^{N^{q}} \frac{\partial cost(O)}{\partial O_{q}}\frac{\partial O_{q}}{\partial Q_{q}}w_{qp}\Delta H_{p}I_p\\ = \sum_{q=1}^{N^{q}}\frac{grad(w_{qp})}{I_q}w_{qp}\Delta H_{p}I_p$
注意这里的代价函数是cost(O)，只和输出有关,而不是 $cost(O_p)$ 等中间代价函数，后者是无法传递计算的。
设