BP（反向传播）神经网络

最新推荐文章于 2024-07-28 03:59:40 发布

Cowry5

最新推荐文章于 2024-07-28 03:59:40 发布

阅读量5.2k

点赞数 22

分类专栏： MachineLearning 文章标签：机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/cowry5/article/details/80370798

版权

MachineLearning 专栏收录该内容

10 篇文章 153 订阅

订阅专栏

这篇文章主要讨论神经网络的反向传播的细节，“误差”是如何反向传播的，我们又是如何利用梯度来优化参数的。

在学吴恩达机器学习视频的神经网络那节时，给出了许多公式，比如计算每层的误差，每层参数的梯度，但并没有给出推导过程，可能也是考虑入门级，大多人并不要知道其中含义就可以运用算法了。接下来我会给出详细的推导过程，帮助大家理解。

注意接下来所讲是未正则化的神经网络。

1 计算公式

1.1 正向传递

假设现在有一个三层的神经网络，如图：

参数含义：

$\theta^{(i)}$ 第 $i$ 层的参数矩阵
$z^{(l)}$ 第 $l$ 层的输入
$a^{(l)}$ 第 $l$ 层的输出

传递过程：

$a^{(1)}=x$
$z^{(2)}=\theta^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)}) (add\;a_0^{(2)})$
$z^{(3)}=\theta^{(2)}a^{(2)}$
$h=a^{(3)}=g(z^{(3)})$

其中 $g$ 为sigmoid激活函数。

1.2 反向传播

我们用 $\delta^{(l)}$ 表示每层的”误差“， $y$ 为每个样本的标签， $h$ 为每个样本的预测值。

吴恩达在课里面提到，”误差“的实质是 $\delta^{(l)}=\frac{\partial J}{\partial z^{(l)}}$ ，没错，后面详细说明。

先来从后往前计算每层的“误差“。注意到这里的误差用双引号括起来，因为并不是真正的误差。

$\delta^{(3)}=h-y$ (1)
$\delta^{(2)}=(\theta^{(2)})^T\delta^{(3)}g^{'}(z^{(2)})$ (2)

注意第一层是没有误差的，因为是输入层。

然后来计算每层参数矩阵的梯度，用 $\Delta^{(l)}$ 表示

$\Delta^{(2)}=a^{(2)}\delta^{(3)}$ (3)
$\Delta^{(1)}=a^{(1)}\delta^{(2)}$ (4)

最后网络的总梯度为：

$D=\frac{1}{m}(\Delta^{(1)}+\Delta^{(2)})$ (5)

到这里反向传播就完成了，接着就可以利用梯度下降法或者更高级的优化算法来训练网络。

2 推导

这里只推导 $\delta\;和\;\Delta$ 是怎么来的，其余的比较好理解。

首先明确我们要优化的参数有 $\theta^{(1)}$ ， $\theta^{(2)}$ ，利用梯度下降法的思想，我们只需要求解出代价函数对参数的梯度即可。

假设只有一个输入样本，则代价函数是：
$J(\theta)=-ylogh(x)-(1-y)log(1-h)$
回顾下正向传递的过程，理解其中函数的嵌套关系：

$a^{(1)}=x$
$z^{(2)}=\theta^{(1)}a^{(1)}$
$a^{(2)}=g(z^{(2)}) (add\;a_0^{(2)})$
$z^{(3)}=\theta^{(2)}a^{(2)}$
$h=a^{(3)}=g(z^{(3)})$

然后我们来求解代价函数对参数的梯度， $\frac{\partial}{\partial \theta^{(2)}}J(\theta)$ ， $\frac{\partial}{\partial \theta^{(1)}}J(\theta)$ 。

根据链式求导法则，可以计算得到：

把我画红线的地方令为 $\delta^{(3)}$ ，是不是就得到了反向传播中的公式（1）？

把画绿线的部分令为 $\Delta^{(2)}$ ，就得到了公式（3）。我们接着算：

同样把红线部分令为 $\delta^{(3)}$ ，紫色部分令为 $\delta^{(2)}$ ，就得到了公式（2）。

绿线部分令为 $\Delta^{(1)}$ ，就得到了公式（4）。

至此，推导完毕。得到这个规律后，便可以应用到深层次的网络中，计算反向传播时就很方便了。

上面的公式因为书写麻烦，便只写了结果。如果你用笔去慢慢推几分钟，会发现其实很简单。

下面是大半年前给实验室做报告做的PPT，没想到现在重新学到这里，感觉许多小细节记不清，故温故一遍。
这里写图片描述

关注

22
点赞
踩
36

收藏

觉得还不错? 一键收藏
16
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Cowry5 CSDN认证博客专家 CSDN认证企业博客

码龄7年

72: 原创

4万+: 周排名

218万+: 总排名

42万+: 访问

: 等级

4430: 积分

1050: 粉丝

816: 获赞

567: 评论

2753: 收藏

私信

关注

分类专栏

MachineLearning 10篇
爬虫 13篇
杂 5篇
vscode 2篇
图片
Linux 20篇
Tensorflow 1篇
Python 5篇
DeepLearning 9篇
数据结构与算法 9篇
编程题 1篇

最新评论

吴恩达深度学习(一)-第二周：Logistic Regression with a Neural Network mindset
qq_34048362: imread 好像在scipy中弃用了。我写成 [code=python] import imageio.v2 as imageio from skimage.transform import resize my_image = 'p2.jpg'#图片文件选择 E:\jupyter_save\images fname = 'images/' + my_image image = np.array(imageio.imread(fname)) my_image = resize(image, output_shape=(num_px, num_px, 3)).reshape( (num_px * num_px * 3, 1)) my_predicted_image = predict(d["w"], d["b"], my_image) [/code]
吴恩达机器学习作业Python实现(六)：SVM支持向量机
qq_34048362: models = [svm.SVC(C=q, kernel='linear') for q in [1, 100]]
Python中np.sum()对axis的个人理解，超详细
飞由于度: 举个简单的例子 [code=python] x1=np.random.rand(2, 3) np.sum(x1, axis=0, keepdims=True).shape # (1, 3) np.sum(x1, axis=1, keepdims=True).shape # (2, 1) [/code]
吴恩达机器学习作业Python实现(一)：线性回归
八重崎椿: 不转置没办法和X点乘，(X * theta.T - y)是（97，1）转置后是（1，97），点乘X的（97，2），算得参数为（1，2）
吴恩达机器学习作业Python实现(三)：多类分类和前馈神经网络
十田一点心: 我收回我上面说的所有话，他的数据集是按顺序排的

大家在看

最新文章

目录

评论 16

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。