反向传播

最新推荐文章于 2024-08-30 09:24:02 发布

大咸鱼呵呵

最新推荐文章于 2024-08-30 09:24:02 发布

阅读量424

点赞数

Rumelhart、Hinton和Williams（1986年）提出的一般Delta法则

Parter（1985年）也独立地得出过相似的算法，他称之为学习逻辑

Lecun（1985年）也研究出大致相似的学习法则

前向传播

反向传播算法

有一层隐层

输入为2维向量x

输出为2维向量y

x所对应的期望输出（ground truth）为t

若y≠t，则说明参与计算的权重w不恰当，需要进行调整。

调整的手法，即为反向传播。

反向传播算法的核心，是通过比较输出y和真值t，对参与计算的w进行调整。

其计算方法是从网络的输出层开始，向输入层方向逐层计算梯度并更新权重，与前馈运算正好相反。

链式法则

激活函数的导数

根据链式法则：

定义：

则

重要结论：

对于，我们来计算损失函数对于它的偏导数（也就是梯度）：

对于偏置项，有：

BP四项基本原则

矩阵形态

Hadamard乘积，element-wise product

梯度消失

BP2中我们可以看到，计算梯度时包含了激活函数的导数

如果使用函数sigmoid，那么它的导数为sigmoid'(x)=sigmoid(x)*[1-sigmoid(x)]

其最大值为0.25，而越往两侧，越接近0在方向传播时，每一层的△都逐层减小最终消失。

Zig zag

思考一下的两个权重

若h1、h2都是sigmoid函数的输出，则h1、h2>0

那么和两个权重得到的更新值△要么同时为正，要么同时为负

如果这两个权重恰好要求一个增加，另一个减小，那么：

交叉熵损失

二分类问题：

交叉熵损失：

大咸鱼呵呵

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。