深度学习系列笔记（一）——深度学习简介与反向传播机制

最新推荐文章于 2024-03-19 11:56:02 发布

qq_41835091

最新推荐文章于 2024-03-19 11:56:02 发布

阅读量811

点赞数

分类专栏：深度学习文章标签：深度学习机器学习神经网络人工智能

本文链接：https://blog.csdn.net/qq_41835091/article/details/122013867

版权

深度学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

深度学习简介

深度学习的发展趋势
Fully Connect Feedforward Network举例
反向传播
参考文献

深度学习的发展趋势

回顾一下deep learning的历史：

1958: Perceptron (linear model)
1969: Perceptron has limitation
1980s: Multi-layer perceptron
- Do not have significant difference from DNN today
1986: Backpropagation
- Usually more than 3 hidden layers is not helpful
1989: 1 hidden layer is “good enough”, why deep?
2006: RBM initialization (breakthrough)
2009: GPU
2011: Start to be popular in speech recognition
2012: win ILSVRC image competition 感知机（Perceptron）非常像我们的逻辑回归（Logistics Regression）只不过是没有sigmoid激活函数。09年的GPU的发展是很关键的，使用GPU矩阵运算节省了很多的时间。

Fully Connect Feedforward Network举例

在这里插入图片描述
也可以写成矩阵形式：

$s i g m o i d$ $（$ 权重w【黄色】 $\times$ 输入【蓝色】 $+$ 偏移量b【绿色】 $）$ $=$ 输出

反向传播

符号表示

损失函数(Loss function)是定义在单个训练样本上的，也就是就算一个样本的误差，比如我们想要分类，就是预测的类别和实际类别的区别，是一个样本的，用 $l$ 表示。
代价函数(Cost function)是定义在整个训练集上面的，也就是所有样本的误差的总和的平均，也就是损失函数的总和的平均，有没有这个平均其实不会影响最后的参数的求解结果。
总体损失函数(Total loss function)是定义在整个训练集上面的，也就是所有样本的误差的总和。也就是平时我们反向传播需要最小化的值,用 $L$ 表示。

符号解释
如图， $C^n$ 是一个表示 $y^n$ 和 $\hat{y}^n$ 之间距离的函数。 $L(\theta)$ （total loss）是总的 $C^n$ 之和。

计算Loss对Params的偏导数

取一个Neuron来看
在这里插入图片描述

符号说明

如图， $x_1,x_2$ 是input， $w_1, w_2$ 是weight, $b$ 是bias, $z=x_1w_1+x_2w_2+b$ 是激活前的值， $a$ 是经过途中蓝色神经元激活后（比如sigmoid）的值。
在这里插入图片描述

过程

我们要计算的目标是 $\frac{\partial l}{\partial w}$ , 由链式法则 $\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w}\times \frac{\partial l}{\partial z}$ .
在这里插入图片描述

$\frac{\partial z}{\partial w}$ （Forward pass的部分）
- 可以秒算，因为 $z=\sum_{i=1}^{n} a_iw_i$ ，其中 $a_i$ 是前一个神经元的输入，所以一个 $\frac{\partial z}{\partial w}$ 就是 $a$ .

$\frac{\partial l}{\partial z}$ ( Backward pass的部分 )
- 初看貌似很复杂，但我们把整个网络方向反过来看，同样利用链式法则， $\frac{\partial l}{\partial z}=\frac{\partial a}{\partial z} \times \frac{\partial l}{\partial a}$ .
- $\frac{\partial a}{\partial z}$ 即 $\sigma'(z)$ ,当输入确定后，逐层迭代，它就是一个定值.
- $\frac{\partial l}{\partial a}$ 类比于正向传播，同样利用链式法则， $\frac{\partial l}{\partial a}=\sum_{i=1}^n \frac{\partial z_i}{\partial a}\times\frac{\partial l}{\partial z_i}$
  - 其中 $\frac{\partial z}{\partial a}$ 可以秒算，就是 $w_i$ (因为 $z=\sum_{i=1}^{n} a_iw_i$ )
  - $\frac{\partial l}{\partial z_i}$ 当确定了loss function（ $l(y,\hat{y})$ ）之后也不复杂（常见的loss function比如交叉熵、mean square等）
    ……
    套娃下去，从output往前看。
把 $\frac{\partial z}{\partial w}$ 和 $\frac{\partial l}{\partial z}$ 相乘，我们就可以得到 $\frac{\partial l}{\partial w}$ , 即 $\frac{\partial l}{\partial w}=\frac{\partial z}{\partial w}\times \frac{\partial l}{\partial z}$ .
所有我们就可以得到神经网络中所有的参数，然后用梯度下降就可以不断更新，得到损失最小的函数。

例子

我成功的把自己也绕晕了，用一个简单的例子再梳理一下后向传播。

在这里插入图片描述

如图，从输出层往前看，

首先 $\frac{\partial l}{\partial z_5}=\frac{\partial l}{\partial y_1}\times\frac{\partial y_1}{\partial z_5} = \sigma'(z_5)\frac{\partial l}{\partial y_1}$
同理 $\frac{\partial l}{\partial z_6}=\frac{\partial l}{\partial y_6}\times\frac{\partial y_2}{\partial z_6} = \sigma'(z_6)\frac{\partial l}{\partial y_2}$
公式中每个量都是可算的，好的，那么目前为止，我们把 $\frac{\partial l}{\partial z_5}，\frac{\partial l}{\partial z_6}$ 直接当做已知量喽。
继续， $\frac{\partial l}{\partial z_3}=\frac{\partial l}{\partial a_3}\times\frac{\partial a_3}{\partial z_3} = \sigma'(z_3)\frac{\partial l}{\partial a_3}$
- 又因为 $z_5 = w_{11}'a_3+w_{21}'a_4, z_6 = w_{12}'a_3+w_{22}'a_4$ ，即 $a_3$ 与 $z_5, z_6$ 都有关, $a_3$ 是 $z_5, z_6$ 的函数, 用 $a_3(z_5, z_6)$ 表示.
- 所以，继续链式法则： $\frac{\partial l}{\partial a_3}=\frac{\partial l}{\partial z_5}\times\frac{\partial z_5}{\partial a_3}+\frac{\partial l}{\partial z_6}\times\frac{\partial z_6}{\partial a_3}$ ，由前面计算， $\frac{\partial l}{\partial z_5},\frac{\partial l}{\partial z_6}$ 是已知量; $\frac{\partial z_5}{\partial a_3}=w_{11}', \frac{\partial z_6}{\partial a_3}=w_{12}'$
- 整理得 $\frac{\partial l}{\partial z_3}=\frac{\partial l}{\partial a_3}\times\frac{\partial a_3}{\partial z_3} = \sigma'(z_3)\frac{\partial l}{\partial a_3}=\sigma'(z_3)(\frac{\partial l}{\partial z_5}w_{11}'+\frac{\partial l}{\partial z_6}w_{12}')$
  同理 $\frac{\partial l}{\partial z_4}=\frac{\partial l}{\partial a_4}\times\frac{\partial a_4}{\partial z_4} = \sigma'(z_4)\frac{\partial l}{\partial a_4}=\sigma'(z_4)(\frac{\partial l}{\partial z_5}w_{21}'+\frac{\partial l}{\partial z_6}w_{22}')$
  ……
  后面再继续套娃，即可第一层算出 $\frac{\partial l}{\partial z}$

恩，滤了一遍，我把自己捋清楚了，但我估计看的人还是很晕。其实懂了之后过程很简单，就是有些繁琐，手写很快就捋完了，附一个手写版本。
在这里插入图片描述

参考文献

本文笔记摘自Datawhale组队学习，仅仅结合自己的理解略加修改。

qq_41835091

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习系列笔记（一）——深度学习简介与反向传播机制

深度学习简介深度学习的发展趋势Fully Connect Feedforward Network举例反向传播符号表示计算Loss对Params的偏导数符号说明过程例子参考文献深度学习的发展趋势回顾一下deep learning的历史：1958: Perceptron (linear model)1969: Perceptron has limitation1980s: Multi-layer perceptronDo not have significant difference from
复制链接

扫一扫