【深度学习基础】梯度下降

最新推荐文章于 2024-07-11 01:00:00 发布

two_star

最新推荐文章于 2024-07-11 01:00:00 发布

阅读量1.4k

点赞数 1

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/qq_25024883/article/details/84338925

版权

深度学习专栏收录该内容

12 篇文章 1 订阅

订阅专栏

梯度下降

为什么使用梯度下降？
梯度消失和梯度爆炸
梯度检验

具体的梯度下降的理论和公式推导，部分博客已经解释的很详尽了，本文更多的在于梯度下降的拓展问题。

为什么使用梯度下降？

现有结果表明，在处理复杂任务上，深度网络比浅层的网络有更好的效果。但是，目前优化神经网络的方法都是基于反向传播的思想，即根据损失函数计算的误差通过梯度反向传播的方式，指导深度网络权值的更新优化。这样做的原因在于：
深层网络由许多非线性层堆叠而来，每一层非线性层都可以视为一个非线性函数，因此整个深度网络可以看成是一个复合的非线性多元函数。
$f_n (...f_3 (f_2 (f_1 (x) * \theta_1 + b) * \theta_2 + b)...)$
我们最终的目的是希望整个多元函数可以很好的完成输入到输出之间的映射。假设不同的输入，输出的最优解是 $g (x)$ ，那么，优化深度网络就是为了寻找到合适的权值，满足 $L o s s = L (g (x), F (c))$ 取得极小值点，比如最简单的损失函数 $Loss = ||g(x) - f(x)||_2^2$

梯度消失和梯度爆炸

1. 定义

深度神经网络训练的时候，采用的是反向传播方式，该方式使用链式求导，计算每层梯度的时候回涉及连乘操作，因此如果网络过深：
(1) 如果连乘的因子大部分小于1，连乘之后会趋近于0，后面的网络层的参数不发生变化，即梯度消失。
(2) 如果连乘的因子大部分大于1，连乘之后会趋近于无穷，即梯度爆炸。
在这里插入图片描述

2. 如何防止梯度消失？

sigmoid：
$\frac{1}{1 + exp(-z)}$
ReLU：
$f (x) = m a x (0, x)$
sigmoid容易发生梯度消失，可以将激活函数替换为ReLU。

3. 如何确定是否出现梯度爆炸？

(1) 模型无法从训练数据中获得更新（如低损失）。
(2) 模型不稳定，导致更新过程中的损失出现显著变化。
(3) 训练过程中，模型损失变成NaN

3. 如何防止梯度爆炸？

(1) 预训练+微调

Hinton在2006年发表论文，提出无监督逐层训练方法。基本思想是每次训练一层隐节点，训练时将上一层隐节点的输出作为输入，而本层隐节点的输出作为下一层隐节点的输入，次过程称为“预训练”（pre-training）；预训练完成后，再对整个网络进行“微调”（fine-tunning）。Hinton在训练深度信念网络（Deep Belief Networks中，使用了这个方法，在各层预训练完成后，再利用BP算法对整个网络进行训练。此思想相当于是先寻找局部最优，然后整合起来寻找全局最优，此方法有一定的好处，但是目前应用的不是很多了。