李宏毅深度学习——训练神经网络的技巧

最新推荐文章于 2022-09-02 11:24:06 发布

大苏苏

最新推荐文章于 2022-09-02 11:24:06 发布

阅读量274

点赞数

分类专栏：李宏毅机器学习与深度学习文章标签：神经网络深度学习机器学习

本文链接：https://blog.csdn.net/qq_38150575/article/details/119838957

版权

3 篇文章 0 订阅

订阅专栏

神经网络训练技巧¹

我们为什么会遇到 training loss 为0的情况？

遇到了鞍点，梯度为0，却不是局部极小点
- 解决方案：知道loss function的形状，可以利用某些已知参数，根据泰勒公式知道某点附近部分loss function的形状，
- $L(\theta) \approx L(\theta')+\dfrac{1}{2}(\theta-\theta')^TH(\theta-\theta')$
- 通过第三项的H矩阵判断是否是鞍点（看特征值即可），如果是鞍点，找到负的特征值对应的某个特征向量，即为参数更新的方向

Saddle point 和 Local Minima哪个更常见？

1.批处理数据更新参数

不太平稳
“蓄力”时间更短（不考虑GPU）
small batch size的结果有时候可能更好（每个batch数目少），一个可能的解释是这样更有几率使得模型loss训练到极小点，且更有可能走到盆地（因为每次 update 的方向不太一样）

2.带动量的更新参数

新的方向是上一步更新方向以及梯度下降方向的折中。
另一种解读方式：当前的gradient考虑的不仅是上一步的gradient，更是之前所有gradient的累计。这个思想与LSTM、时间序列分析等思想很类似。

问题：震荡出现时，loss不再下降也有可能出现。训练卡在“山谷某边沿之间”。
李宏毅机器学习课程2021课件

事实上，即使是convex的error surface，训练也可能很困难。

learning rate 不合适导致，故客制化的learning rate 更被需要
Root Mean Square
- $\eta \rightarrow \dfrac{\eta}{\sigma_i^t}$
- $\sigma _i^t = \sqrt{\dfrac{1}{t+1} \sum_{i=0}^t(\textbf{g}_i^t)^2}$
- 梯度小的参数update量较大，反之较小
- 同一个参数的值大小差不多（*），根据前一时刻的自我调整速度较慢
RMSProp²
- 可以调整当前参数的重要性
- $\eta \rightarrow \dfrac{\eta}{\sigma_i^t}$
- $\sigma _i^t = \sqrt{\alpha(\sigma_i^{t-1})^2+(1-\alpha) (\textbf{g}_i^t)^2}$
Adam：RMSProp+动量（Torch有）
学习率调度
- Learning Rate Decay：减少由于后期的loss过小导致的震荡
- Warm up³：先增加，后减少。BERT训练可用