深度学习简介——神经网络与后向传播（Hung-Yi Lee）

最新推荐文章于 2024-07-26 13:24:37 发布

nanyidev

最新推荐文章于 2024-07-26 13:24:37 发布

阅读量529

点赞数 2

分类专栏： 2022 文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/ji_meng/article/details/123598920

版权

2022 专栏收录该内容

26 篇文章 13 订阅

订阅专栏

文章目录

深度学习三步走
后向传播（让梯度计算更有效率）
- 另一种观点看后向传播

深度学习三步走

Step1 Neural Network

从neural network说起，每个神经元以不同的方式链接，就会产生不同的结果输出。将两个神经元并排拼在一起
在这里插入图片描述
每个神经元有不同的参数，以输入1，-1为例，可以得到的结果是：(神经网络的参数 $\theta$ ：所有的weight和bias）

即输入先乘上权重再加上偏置，最后通过激活层，输出的又作为下一层的输入层。通常把全连接网络分成输入层，隐藏层和输出层，Deep learning中的Deep可以认为是Many hidden layers。
$y=f(x)=\sigma(w^m \cdots\sigma(w^2 *\sigma(w^1*x+b^1)+b^2) \cdots+b^m ))$
也可以把这种运算看成矩阵运算，针对上图有：
在这里插入图片描述

Step2 goodness of function

loss函数的设计，以手写数字识别为例，采用交叉熵，则 $l(y,\hat{y})=-\sum_{i=1}^{10} \hat{y_i}lny_i$

Step3 pick the best function

利用梯度下降让loss最小，即计算 $\frac{\partial L}{\partial w1},\frac{\partial L}{\partial b1} \cdots$
再利用和线性规划中一样的更新迭代方法，找到最优解。唯一不同的就是此时的函数更复杂——需要采用后向传播

后向传播（让梯度计算更有效率）

用到的原理就是链式法则。
loss函数可以简写为 $L(\theta)=\sum_{n=1}^N l^n(\theta)$ ,对w求偏导， $\frac{\partial L(\theta)}{\partial w}=\sum_{n=1}^N \frac{\partial l^n(\theta)}{\partial w}$
在这里插入图片描述
以一个神经元为例，根据链式法则， $\frac{\partial l}{\partial w}=\frac{\partial l}{\partial z}\frac{\partial z}{\partial w}$
其中 $\frac{\partial z}{\partial w}$ 比较好计算(结果就是权重w连接的输入)，称为Forward pass
$\frac{\partial l}{\partial z}$ 则有些复杂，需要再往后面找，称为Backward pass
在这里插入图片描述
从这幅图可以看出， $\frac{\partial l}{\partial z}=\frac{\partial l}{\partial a}\frac{\partial a}{\partial z}$
其中 $\frac{\partial a}{\partial z}=\sigma'(z)，\frac{\partial l}{\partial a}=\frac{\partial l}{\partial z'}\frac{\partial z'}{\partial a}+\frac{\partial l}{\partial z''}\frac{\partial z''}{\partial a}$
所以 $\frac{\partial l}{\partial z}=\sigma'(z)[w_3\frac{\partial l}{\partial z'}+w_4\frac{\partial l}{\partial z''}]$
现在就是要解决 $\frac{\partial l}{\partial z'}$ 和 $\frac{\partial l}{\partial z'’}$
（递归循环开始出现）
case1.output layer
在这里插入图片描述
case2 Not output layer

另一种观点看后向传播

之前计算梯度时，要计算loss函数对第一层参数的导数就得计算第二层，计算第二层就得计算第三层……这样子效率不高。可以换一种观点，将反向传播看出“前向传播”，先计算最后一层的导数，这样就可以计算倒数第二层的导数……只需要注意一下此时的"激活函数"是 $\sigma'(z)$
在这里插入图片描述
最后总结一下后向传播：

参考链接：http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

nanyidev

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
深度学习简介——神经网络与后向传播（Hung-Yi Lee）

深度学习三步走Step1 Neural NetworkStep2 goodness of functionStep3 pick the best function
复制链接

扫一扫

专栏目录