反向传播梯度推导

scarlet witcher

于 2021-08-06 10:08:59 发布

阅读量2.4k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/taoyc888888/article/details/119444983

版权

目录

1.前向传播

前向传播算法：将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算到输出层为止。

在这里插入图片描述
对于Layer 2的输出 a₁⁽²⁾,a₂⁽²⁾,a₃⁽²⁾

在这里插入图片描述

对于Layer 3的输出 a₁⁽³⁾，a₂⁽³⁾

在这里插入图片描述

从上面可以看出，使用代数法一个个的表示输出比较复杂，而如果使用矩阵法则比较的简洁。将上面的例子一般化，并写成矩阵乘法的形式.

在这里插入图片描述

2.反向传播

反向传播算法，简称BP算法，适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上。它的信息处理能力来源于简单非线性函数的多次复合，因此具有很强的函数复现能力，这是BP算法得以应用的基础。反向传播是一种与最优化方法（如梯度下降法）结合使用的，用来训练人工神经网络的常见方法。该方法对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法，用来更新权值以最小化损失函数。

推导BP算法

选择一个损失函数，计算训练样本的输出和真实的输出之间的损失。我们使用最常见的均方误差（MSE）来作为损失函数。如下图
在这里插入图片描述
其中 a^(l)为样本的输出，y为真实值。加入系数1/2 是为了与求导后的2抵消。

(1) 输出层的梯度

在这里插入图片描述
我们发现有公共的部分，记为

(2) 隐藏层的梯度

因为上面已经求出了输出层的误差，根据误差反向传播的原理，当前层的误差可理解为上一层所有神经元误差的复合函数，即使用上一层的误差来表示当前层误差，并依次递推。
在这里插入图片描述
Z^(l+1)和Z^(l)的关系, 如下图

可以得出

由此得到了递推关系式，求解W^(l)，b^(l)的对应梯度

3.总结

初始化参数W，b
进行前向传播算法计算
通过损失函数计算输出层的梯度
进行反向传播算法计算
更新W，b
如果所有W，b的变化值都小于停止迭代阈值ϵ，则跳出迭代循环
输出各隐藏层与输出层的线性关系系数矩阵W和偏置b。

在这里插入图片描述
对于W_ij³ , b_j³

对于W_ki² , b_i²

在这里插入图片描述

scarlet witcher

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
反向传播梯度推导

1.前向传播前向传播算法：将上一层的输出作为下一层的输入，并计算下一层的输出，一直到运算到输出层为止。对于Layer 2的输出对于Layer 3的输出[公式]，[公式][公式]从上面可以看出，使用代数法一个个的表示输出比较复杂，而如果使用矩阵法则比较的简洁。将上面的例子一般化，并写成矩阵乘法的形式，[公式][公式]其中 [公式] 为 sigmoid 函数。这个表示方法就很简洁、很漂亮，后面我们的讨论都会基于上面的这个矩阵法表示来。所以，应该牢牢记住我们符号的含义，否则在后面推导反
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。