李宏毅机器学习笔记——深度学习介绍及反向传播

最新推荐文章于 2024-05-28 14:29:23 发布

Brandon1017

最新推荐文章于 2024-05-28 14:29:23 发布

阅读量495

点赞数

分类专栏：李宏毅老师的《机器学习》文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/Brandon1017/article/details/125820690

版权

李宏毅老师的《机器学习》专栏收录该内容

6 篇文章 1 订阅

订阅专栏

深度学习介绍及反向传播

深度学习的三个步骤
反向传播
- 链式法则
- 具体细节

深度学习的三个步骤

与之前的回归内容一样，可以概括为三个步骤。

第一步——定义模型（NN）

像神经元一样，设置输入层、隐藏层和输出层。层与层之间的权重我们用 $\theta$ 表示。
“简单来说，深度学习就是有很多个隐藏层的神经网络。”

全连接是连接不同的神经元一种方式。当前层的任意神经元与下一层的每个神经元都有连接。
在这里插入图片描述
矩阵运算：
![在这里插入图片描述](https://img-blog.csdnimg.cn/eed908ada0444c47b5caa75fc6890469.pn
于是一个NN，就相当于函数内嵌函数（有几层隐藏层就内嵌几次）进行运算。这种运算用GPU速度会相对快些。

一般需要多少层隐藏层和多少个神经元是由经验、实验与尝试确定的，没有绝对的方法。
一些方法（Evolutionary Artificial Neural Netwo）可以自动确定神经网络的结构。

第二步——定义模型的好坏

假设我们做手写数字辨识。
在这里插入图片描述
这里我们用模型预测的结果和真实值之间的交叉熵之和 $L(\theta)=\Sigma^n_{i=1}C^i$ 作为Loss Function，来定义模型预测的准确与否。交叉熵越小越好。

第三步——找到较优模型

寻找参数 $\theta^*$ 使得Loss Function最小的方法就是运用梯度下降（Gradient Descent），方式与回归内容中的一样，不再赘述。

深度学习中神经网络越深越好？
通过实验可以观测到，神经网络越深表现越好。有一个通用的理论：”对于任何一个连续的函数，都可以用足够多的隐藏层来表示“。

反向传播

神经网络里有很多的参数（一些模型里甚至有百万个），为了使梯度下降能够更有效率，我们运用到反向传播。

链式法则

反向传播中运用到地数学基础是链式法则。
在这里插入图片描述

具体细节

神经网络里的Loss Function是： $L(\theta)=\Sigma^n_{i=1}C^i$ 。
则Loss Function对某个参数 $w$ 的偏微分是： $\frac{\partial L(\theta)}{\partial w}=\Sigma^n_{i=1}\frac{\partial C^i(\theta)}{\partial w}$ 。
我们下面具体计算某一个data的 $\frac{\partial C^i(\theta)}{\partial w}$ ，后续只需求和即可。

在这里插入图片描述
通过链式法则我们知道， $\frac{\partial C}{\partial w}$ 主要由 $\frac{\partial z}{\partial w}$ 和 $\frac{\partial C}{\partial z}$ 组合成。

我们先关注 $\frac{\partial z}{\partial w}$ 这一部分。
通过神经网络一层传导的式子： $z=x_1w_1+x_2w_2+...+b$ ，我们可以观察到 $\frac{\partial z}{\partial w}$ 就等于 $x$ 。
而 $x$ 的计算就是神经网络由前往后一层层计算得到的，所以这个过程称为：Forward pass

再关注 $\frac{\partial C}{\partial z}$ 这一部分。我们分为两种情况。

Case 1. 输出层
我们可以直接计算 $\frac{\partial C}{\partial z}=\frac{\partial y}{\partial z}\frac{\partial C}{\partial y}$
其中 $\frac{\partial C}{\partial y}$ 我们是用交叉熵公式可以算得。
Case 2. 非输出层
在非输出层，计算出 $z$ 后，还需要通过激活函数 $a=\sigma(z)$ 才传递到下一层，所以我们将 $\frac{\partial C}{\partial z}$ 进一步分解成 $\frac{\partial a}{\partial z}\frac{\partial C}{\partial a}$ 。
令 $\frac{\partial a}{\partial z}$ 为 $\sigma^{-1}(z)$ ，它是激活函数的反函数的值。
$\frac{\partial C}{\partial a}$ 这一项我们可以化成： $\frac{\partial z^{1}}{\partial a}\frac{\partial C}{\partial z^{1}}+...+\frac{\partial z^{k}}{\partial a}\frac{\partial C}{\partial z^{k}}=w_1\frac{\partial C}{\partial z^{1}}+...+w_k\frac{\partial C}{\partial z^{k}}$ .
其中 $z^{i}$ 是下一层第i个与当前神经元连接的神经元， $w_i$ 就是其权重。