【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

MoyiTech

于 2024-08-27 23:50:44 发布

阅读量347

点赞数 13

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/qq_30650051/article/details/141613803

版权

局部极小值与鞍点

梯度为0的点我们统称为临界点，包括局部极小值、鞍点等
局部极小值和鞍点的梯度都为0，那如何判断呢？
先请出我们损失函数：L(θ)，θ是模型中的参数的取值，是一个向量。
由于网络的复杂性，我们无法直接写出损失函数，不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识，我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似：
在这里插入图片描述
其中，θ是模型中的参数的取值，θ’是在θ附近的取值。
H是海森矩阵， $H_{ij}$ 是L对 $\theta_i$ 和 $\theta_j$ 的二阶偏导数。
那么如何判断是极值点还是鞍点呢？
当梯度也就是g为0时，第二项可消去，损失函数的值可变为如下形式：
在这里插入图片描述
当所有 $(\theta-\theta')^TH(\theta-\theta')>0$ 时， L(θ) < L(θ’)，θ为极小值点
当所有 $(\theta-\theta')^TH(\theta-\theta')<0$ 时， L(θ) > L(θ’)，θ为极大值点
当有的 $(\theta-\theta')^TH(\theta-\theta')>0$ 有的<0时， L(θ) > L(θ’)，θ为鞍点

批量与动量

批量梯度下降法(BGD)： 必须把一整个epoch训练数据都看完，才能够计算损失和梯度，参数才能够更新一次
随机梯度下降法(SGD)： batch_size=1进行训练
批量梯度下降相比随机梯度下降，每次更新更稳定、更准确。
其计算量未必大，由于计算单元并行的特性可以对矩阵运算进行优化，其计算效率会随着batch_size的上升而更更接近性能极限。batch_size较小时，增加不会显著影响计算时间，单计算效率在提升，在接近计算单元性能极限时，会变成正比例函数。在模型效果方面，更小的batch_size可以引入噪声，帮助逃离鞍点和局部最优解，更大的batch_size可以使损失函数更加平滑，有利于优化，更快收敛。
所以，我们在训练时，需要选择一个合适的batch_size进行训练。
在这里插入图片描述

MoyiTech

关注

13
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【学习笔记】第三章深度学习基础——Datawhale X李宏毅苹果书 AI夏令营

梯度为0的点我们统称为临界点，包括局部极小值、鞍点等局部极小值和鞍点的梯度都为0，那如何判断呢？先请出我们损失函数：L(θ)，θ是模型中的参数的取值，是一个向量。由于网络的复杂性，我们无法直接写出损失函数，不过我们可以写出损失函数的近似取值。根据宋浩老师所讲的大学一年级高等数学的知识，我们可以通过三阶泰勒展开对损失函数在θ附近的取值进行近似：其中，θ是模型中的参数的取值，θ’是在θ附近的取值。H是海森矩阵，Hij是L对θi和θj的二阶偏导数。
复制链接

扫一扫