神经网络中的BP算法原理

最新推荐文章于 2024-11-28 18:42:42 发布

black_soil

最新推荐文章于 2024-11-28 18:42:42 发布

阅读量3.5k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/black_soil/article/details/80718858

版权

BP（Back-propagation）算法广泛应用于神经网络的模型训练中，基本思想是将误差逐层反传，从而更新各个参数。本文重点探讨BP算法的基本原理和公式推导。

方便起见，以3层DNN为例，网络结构如下图。具体来说，第1层是输入层，用x1, x2, ……, xn表示，第2层是隐藏层，用h1, h2, ……, hp表示，第3层是输出层，用y1, y2, ……, ym表示，输入层和隐藏层之间的权重参数用W(1)表示，隐藏层和输出层之间的权重参数用W(2)表示，节点的激活函数用f表示。

1. 前向计算，根据输入依次计算各个节点的输出

（1）计算隐藏层的输入和输出：

（2）计算输出层的输入和输出：

（3）计算损失函数：

2. 误差反传，根据损失函数计算各个节点的梯度

（1）计算损失函数对输出层的输入的梯度

如果激活函数采用sigmoid函数，则

于是上面的梯度可以写成

（2）计算损失函数对隐藏层和输出层参数的梯度

（3）计算损失函数对输入层和隐藏层参数的梯度

3. 更新参数

得到梯度之后，采用梯度下降算法更新参数，如下

4. 一点思考

观察W(2)的梯度公式，发现

同样形式在W(1)的梯度公式中也出现了两次，随着网络层数的增加，接近输入层的节点参数梯度中包含改形式的次数也将逐层增加，导致梯度越来越小，即梯度消失问题。

博客等级

码龄16年

8
原创

35
点赞

176
收藏

29
粉丝

关注

私信

热门文章

最新评论

【综述】NL2SQL (二) WikiSQL
li-heng: 标题里面是“【综述】NL2SQL (二) WikiSQL”是说“这里面的论文都是使用的wikisql数据集”吗？
【综述】NL2SQL (一) 简介及数据集
qq_51792238: https://github.com/ZhuiyiTechnology/TableQA?tab=readme-ov-file 这是追一的中文数据集
Attention机制（一）基本原理及应用
lmw0320: 请教下：文中提到的：给定target中的某个元素query，通过计算query和各个key的相似性或者相关性，得到每个key对应value的权重系数，然后对value进行加权求和。这个target的query是指输出句子中的某个单词么？所谓的value，是输入句子中的每个单词的向量？key是该向量的权重？模型在训练过程中，会不断调整key值和value值？来确保query与输入句子中的相关词组关联较大？
【综述】NL2SQL (一) 简介及数据集
我很菜我知道: 您好，请问数据可以分享一下吗，实在是找不着
ACL2019之对话系统
chouchoubuchou: 如果能添加上每篇论文的被引用数就更好了

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。