人工神经网络—反向传播算法（二）

最新推荐文章于 2024-03-21 13:41:25 发布

VIP文章 @DWC_DIP

最新推荐文章于 2024-03-21 13:41:25 发布

阅读量381

点赞数 1

分类专栏：机器学习系列文章标签：神经网络算法机器学习

本文链接：https://blog.csdn.net/dipdwc/article/details/116975301

版权

反向传播算法（二）

1. 回顾
2. 反向传播算法的一般情形
- 2.1 反向传播算法的推导
- 2.2 一般情形的后向传播算法流程
3. 结尾
参考资料

1. 回顾

在上一讲中，我们基于一个简单的神经网络，讲解了如何用后向传播算法更新神经网络的参数，完成神经网络的训练。这一讲我们将后向传播算法推广到一般的神经网络中，即我们不限制神经网络的层数以及每一层的神经元的个数来推导后向传播算法。

2. 反向传播算法的一般情形

如下图1所示，假设神经网络有 $l$ 层，我们不限制每一层神经元的个数，那么神经元的图可以用更简单的矩阵来表示。

在这里插入图片描述

图1 一般情形下的神经网络模型

神经网络的矩阵方式如下：

在这里插入图片描述
首先，输入 $x$ ，它对应着第0层的输入，我们用 $a^{(0)}$ 表示，那么第一层的输出 $z^{(1)}=w^{(1)}a^{(0)}+b^{(1)}$ ，这就相当于第一层的 $w, b$ 作用在第0层的 $a$ 上，得到了第1层的 $z^{(1)}$ ，接下来 $a^{(1)}=φ(z^{(1)})$ ，其中 $φ$ 是连接两层之间的非线性函数。同样的道理， $z^{(2)}=w^{(2)}a^{(1)}+b^{(2)}$ ，再接下来 $a^{(2)}=φ(z^{(2)})$ ，这样一层一层的下去到第 $l$ 层的时候， $z^{(l)}=w^{(l)}a^{(l-1)}+b^{(l)}$ ，最后的输出 $y=a^{(l)}=φ(z^{(l)})$

根据上图和公式，我们作进一步说明：
（1）网络共有 $l$ 层；
（2） $z^{(k)},a^{(k)},b^{(k)}$ 为向量，用 $z_i^{(k)},a_i^{(k)},b_i^{(k)}$ 表示其第 $i$ 个分量；
（3）输出 $y$ 可以是向量，用 $y_i$ 表示其第 $i$ 个分量。

当然输出的 $y_i$ 也可以是一个数，那么它也可以看作一维的向量。

2.1 反向传播算法的推导

假设对于一个输入的向量 $X$ ，其标签为 $Y$ ，则我们设置目标函数

最低0.47元/天解锁文章

@DWC_DIP

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
人工神经网络—反向传播算法（二）

反向传播算法（二）1. 回顾2. 反向传播算法的一般情形2.1 反向传播算法的推导2.2 一般情形的后向传播算法流程3. 结尾1. 回顾在上一讲中，我们基于一个简单的神经网络，讲解了如何用后向传播算法更新神经网络的参数，完成神经网络的训练。这一讲我们将后向传播算法推广到一般的神经网络中，即我们不限制神经网络的层数以及每一层的神经元的个数来推导后向传播算法。2. 反向传播算法的一般情形如下图1所示，假设神经网络有lll层，我们不限制每一层神经元的个数，那么神经元的图可以用更简单的矩阵来表示。图1
复制链接

扫一扫