Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task01 笔记分享

NantongHHQ

于 2024-08-27 19:32:01 发布

阅读量311

点赞数 12

文章标签：人工智能深度学习笔记

本文链接：https://blog.csdn.net/NantongHHQ/article/details/141610675

版权

文章目录

Task1：《深度学习详解》- 3.1 局部极小值与鞍点(6页+34分钟)

Part01.视频笔记

为什么优化会失败？

随着updates增加，训练的Loss会出现

不够小
（或者）一直在较大的数值处振荡
（梯度会趋近于零，Loss也就不再更新）

梯度为零的情况：局部最小值（local minima）和鞍点（saddle point）

梯度为零的点称为critical point
如果卡在了local minima，那训练就无路可走了
而如果卡在了saddle point，还有可以逃离的路线。

数学知识

泰勒展开式

$L(\theta) \approx L(\theta') + (\theta -\theta')^T g + \frac{1}{2}(\theta - \theta')^T H(\theta -\theta')\tag1$
其中（gradient）g是一个向量（vector）满足 $\nabla L(\theta')$ 且 $g_i = \frac{\partial L(\theta')}{\partial \theta_i}$
而（Hessian）H是一个矩阵（matrix）满足 $H_{ij} = \frac{\partial^2}{\partial \theta_i \partial \theta_j} L(\theta')$

在critical point时，(1)式中的第二相就为零了
此时，不妨记 $v^T = (\theta-\theta')^T$ 和 $\theta-\theta'$ ，那么就有 $L(\theta) \approx L(\theta')+v^T H v$ （系数1/2可以被忽略）
当 $v^T H v > 0$ 对于所有的 $v$ 都成立，那么 $\theta'$ 是一个local minima；
H是一个正定矩阵（矩阵的所有特征值都是正的）
当 $v^T H v < 0$ 对于所有的 $v$ 都成立，那么 $\theta'$ 是一个local maxima；
H是一个负定矩阵（矩阵的所有特征值都是负的）
如果有时 $v^T H v > 0$ 有时 $v^T H v < 0$ ，那么 $\theta'$ 是一个saddle point。
H的特征值有正有负

不要害怕鞍点（saddle point）

Hessian矩阵指出参数update方向
假设 $u$ 是H的一个特征向量， $\lambda$ 是 $u$ 对应的特征值，那么 $u^THu=u^T(\lambda u)=\lambda \lVert u \rVert^2$
当 $\lambda<0$ 时， $L(\theta) < L(\theta')$ —>沿着 $u$ 的方向，就可以逃离鞍点，降低Loss

鞍点与局部最小值

低纬度的鞍点或局部最小值在高纬度的角度可能并不存在；
从经验的角度来看，局部最小值没有那么常见；

Task2：《深度学习详解》 - 3.2 批量和动量（7页+31分钟）

Part01.视频笔记

通过批量（batch size）优化

将训练数据分成多个批量，每次迭代时只应用一个批量的数据；
epoch：将所有的批量训练一遍（shuffle after each epoch）

大小批量的比较

	大批量	小批量
训练时间（没有并行计算）	慢	快
训练效果（有并行计算）	一样（只要批量不是特别大）	一样
一次epoch的训练时间	快	慢
梯度	稳定	不稳定
优化	差	好
泛化	差	好

排除一些刻板印象：

大批量的不一定需要更多时间去计算梯度（并行运算的帮助）；
同时，小批量的训练效果更好（而且不是过拟合）
小批量的测试效果也更好

通过动量（momentum）优化

优化方向：梯度反方向+上一步优化方向： $m^n = \lambda m^{n-1} - \eta g^{n-1}$
那么第 $m$ 步移动方向可以视作前面所有梯度的加权和

NantongHHQ

关注

12
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营第五期深度学习（进阶班）Task01 笔记分享

epoch：将所有的批量训练一遍（shuffle after each epoch）而如果卡在了saddle point，还有可以逃离的路线。其中（gradient）g是一个向量（vector）满足。将训练数据分成多个批量，每次迭代时只应用一个批量的数据；大批量的不一定需要更多时间去计算梯度（并行运算的帮助）；而（Hessian）H是一个矩阵（matrix）满足。从经验的角度来看，局部最小值没有那么常见；的方向，就可以逃离鞍点，降低Loss。是H的一个特征向量，小批量的训练效果更好。前面所有梯度的加权和。
复制链接

扫一扫