三十.全连接神经网络原理

最新推荐文章于 2024-03-05 19:25:18 发布

stackooooover

最新推荐文章于 2024-03-05 19:25:18 发布

阅读量1.2k

点赞数

分类专栏：机器学习理论基础机器学习实战文章标签：神经网络前向传播反向传播梯度下降损失函数

本文链接：https://blog.csdn.net/weixin_36128607/article/details/118854999

版权

机器学习理论基础同时被 2 个专栏收录

39 篇文章 8 订阅

订阅专栏

机器学习实战

31 篇文章 4 订阅

订阅专栏

1.网络结构解析

(1)图示

在这里插入图片描述

(2)结构解析

图中结构一共有四层，最左边为输入层，中间两层为隐藏层，最右边为输出层。通常在说神经网络层数结构的时候不包含输入层，所以输入层也被称为第 $0$ 层。
上图为三层神经网络，图中的各参数代表的意义如下：
$a_{i}^{l}$ ：第 $l$ 层第 $i$ 个神经元的输出。
$z_{i}^{l}$ ：第 $l$ 层第 $i$ 个神经元的未激活输出。
$w_{ij}^{l}$ ：第 $l - 1$ 层第 $j$ 个元素到第 $l$ 层第 $i$ 个元素神经元的权重。
$b_{i}^{l}$ ：第 $l$ 层第 $i$ 个神经元的偏置。
$\sigma$ ：神经元的激活函数。
各个参数的关系如下：
$a_{i}^{l}=\sigma (z_{i}^{l})=\sigma (w_{ij}^{l}a_{j}^{l-1}+b_{i}^{l})$

2.前向传播

(1)前向传播原理

神经网络一共有 $L$ 层，第 $l - 1$ 层有 $n$ 个神经元，第 $l$ 层有 $m$ 个神经元，传播过程中，第 $l$ 层的输出为：
$\mathbf{a}^{l}=\sigma (\mathbf{z}^{l})=\sigma (\mathbf{W}^{l}\mathbf{a}^{l-1}+\mathbf{b}^{l})$
其中:
$\mathbf{a}^{l},\mathbf{z}^{l},\mathbf{b}^{l}\in R^{m\times 1},\mathbf{a}^{l-1}\in R^{n\times 1},\mathbf{W}^{l}\in R^{m\times n}$

(2)前向传播流程

a.初始化输入层：
$\mathbf{a}^{0}=\mathbf{x}$
b.根据以下公式计算每一层的输出直到第 $L$ 层：
$\mathbf{a}^{l}=\sigma (\mathbf{z}^{l})=\sigma (\mathbf{W}^{l}\mathbf{a}^{l-1}+\mathbf{b}^{l})$

3.反向传播

(1)反向传播原理

反向传播的主要作用是更新权重系数 $w$ 和偏置 $b$ 。
输出层第 $L$ 层的损失函数为 $J$ ，则第输出层的损函数为：
$J(\mathbf{a}^{L})=J(\sigma (\mathbf{z}^{L}))=J(\sigma (\mathbf{W}^{L}\mathbf{a}^{L-1}+\mathbf{b}^{L}))$
a.求输出层 $L$ 层的参数
损失函数分别对权重系数 $\mathbf{W}^{L}$ 和偏置 $\mathbf{b}^{L}$ 求梯度，分别为标量对矩阵求导和标量对向量求导，根据链式法则：
$\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{W}^{L}}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{z}^{L}}(\mathbf{a}^{L-1})^{T}\\ \frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{b}^{L}}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{z}^{L}}E^{T}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{z}^{L}}$
以上两式中都有公共项 $\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{z}^{L}}$ ，令其为 $\delta ^{L}$ ，则：
$\delta ^{L}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{z}^{L}}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{a}^{L}}\odot \sigma ^{'}(z^{L})$
例如，当损失函数为平方损失时：
$J(\mathbf{a}^{L})=\frac{1}{2}(\mathbf{a}^{L}-\mathbf{y})^{2}$
此时，公共项为：
$\delta ^{L}=\frac{\partial J(\mathbf{a}^{L})}{\partial \mathbf{a}^{L}}\odot \sigma ^{'}(z^{L})=(\mathbf{a}^{L}-\mathbf{y})\odot \sigma ^{'}(z^{L})$
公共项中的各项参数都是已知的，因此可以直接求出，进而求得梯度，可得输出层的参数更新为：
$\mathbf{W}^{L}=\mathbf{W}^{L}-\lambda \frac{\partial J}{\partial \mathbf{W}^{L}}\\ \mathbf{b}^{L}=\mathbf{b}^{L}-\lambda \frac{\partial J}{\partial \mathbf{b}^{L}}$
b.中间层 $l$ 层的参数
中间层的公共项 $\delta ^{l}$ 也被称作误差项，根据链式法则，可以得到第 $l$ 层和第 $l + 1$ 层的误差项为关系如下：
$\delta ^{l}=\frac{\partial J}{\partial \mathbf{z}^{l}}=\frac{\partial \mathbf{a}^{l}}{\partial \mathbf{z}^{l}}\frac{\partial \mathbf{z}^{l+1}}{\partial \mathbf{a}^{l}}\frac{\partial J}{\partial \mathbf{z}^{l+1}}=\frac{\partial \mathbf{a}^{l}}{\partial \mathbf{z}^{l}}\frac{\partial \mathbf{z}^{l+1}}{\partial \mathbf{a}^{l}}\delta ^{l+1}$
其中：
$\mathbf{a}^{l}=\sigma (\mathbf{z}^{l})\\ \mathbf{z}^{l+1}=\sigma (\mathbf{W}^{l+1}\mathbf{a}^{l}+\mathbf{b}^{l+1})$
可得：
$\frac{\partial \mathbf{a}^{l}}{\partial \mathbf{z}^{l}}=\frac{\partial \sigma (\mathbf{z}^{l})}{\partial \mathbf{z}^{l}}=diag(\sigma ^{'}(\mathbf{z}^{l}))\\ \frac{\partial \mathbf{z}^{l+1}}{\partial \mathbf{a}^{l}}=(\mathbf{W}^{l+1})^{T}\\$
综上，可得第 $l$ 层的误差项和第 $l + 1$ 层的误差项关系为：
$\delta ^{l}=(\mathbf{W}^{l+1})^{T}\delta ^{l+1}\odot \sigma ^{'}(\mathbf{z}^{l})$
在上一节中已经求出了输出层的误差项，根据本节的公式，可以从后向前逐步求出隐藏层的误差项 $\delta ^{l}$ ，从而得到隐藏层的梯度：
$\frac{\partial J(\mathbf{a}^{l})}{\partial \mathbf{W}^{l}}=\frac{\partial J(\mathbf{a}^{l})}{\partial \mathbf{z}^{l}}(\mathbf{a}^{l-1})^{T}=\delta ^{l}(\mathbf{a}^{l-1})^{T}\\ \frac{\partial J(\mathbf{a}^{l})}{\partial \mathbf{b}^{l}}=\frac{\partial J(\mathbf{a}^{l})}{\partial \mathbf{z}^{l}}E^{T}=\frac{\partial J(\mathbf{a}^{l})}{\partial \mathbf{z}^{l}}=\delta ^{l}$
(2)反向传播流程
a.通过前项传播，计算出输出值 $\mathbf{a}^{L}$
b.计算出输出层误差项 $\delta ^{L}$
c.对于第 $L - 1$ 层到第 $1$ 层的所有隐藏层 $l$ ：
$\mathbf{W}^{l}=\mathbf{W}^{l}-\lambda \frac{\partial J}{\partial \mathbf{W}^{l}}\\ \mathbf{b}^{l}=\mathbf{b}^{l}-\lambda \frac{\partial J}{\partial \mathbf{b}^{l}}$

stackooooover

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
三十.全连接神经网络原理

目录1.网络结构解析(1)图示(2)结构解析2.前向传播(1)前向传播原理(2)前向传播流程3.反向传播(1)反向传播原理1.网络结构解析(1)图示(2)结构解析图中结构一共有四层，最左边为输入层，中间两层为隐藏层，最右边为输出层。通常在说神经网络层数结构的时候不包含输入层，所以输入层也被称为第000层。上图为三层神经网络，图中的各参数代表的意义如下：aila_{i}^{l}ail：第lll层第iii个神经元的输出。zilz_{i}^{l}zil：第lll层第iii个神经元的未激活输出。
复制链接

扫一扫