《机器学习》李宏毅（21P5-9）

最新推荐文章于 2022-08-25 09:09:34 发布

静妮子i

最新推荐文章于 2022-08-25 09:09:34 发布

阅读量1.9k

点赞数 5

分类专栏：机器学习—李宏毅文章标签：机器学习人工智能 python

本文链接：https://blog.csdn.net/qq_39848541/article/details/126472080

版权

机器学习—李宏毅专栏收录该内容

13 篇文章 0 订阅

订阅专栏

神经网络训练

局部最小值

在这里插入图片描述

local minima:局部最优
saddle point：鞍点
gradient=0（loss 不再更新）：有多种情况——local minima/saddle point，统称为critical point
在local point处无法找到其他最小值点
在saddle point处有可能从某个方向找到escape方法

如何判断critical point的具体类型

要知道loss function的形状

泰勒展开式
在这里插入图片描述

当 $\theta$ 近似于 $\theta'$ 时， $L(\theta)$ 可近似为以上式子
g(Gradient)会弥补 $\theta'与\theta$ 之间的差距
H(Hessian海森矩阵)继续补足 $\theta'与\theta$ 之间的差距

在这里插入图片描述

当我们遇到critical point时，此时gradient=0，即上式2项=0
此时可以根据上式3项的Hession Matrix，判断 $\theta$ 附近error surface大致样子，以判断该点属于何种类型

令 $v=\theta-\theta'$ ,故3项为 $\frac{1}{2}v^{T}Hv$
不管 $\theta$ 为何值，且 $v^{T}Hv>0$ ，则在 $\theta$ 附近都有 $L(\theta)>L(\theta')$ ,即local minima
同理，若 $v^{T}Hv<0$ ，则在 $\theta$ 附近都有 $L(\theta)<L(\theta')$ ,即local maxima
否则，为saddle point
又由 $v^{T}Hv>0$ 可知，H是positive definite，即Hessian矩阵所有特征值都大于0，因此直接判断Hessian即可

在这里插入图片描述

Example

某个network：y=w1w2x
穷举w1,w2，并计算其所带来的loss，画图如下
在这里插入图片描述计算H（Loss的二次微分矩阵）【原点(0,0)处】

saddle point处的处理

saddle point处是可以找到继续梯度下降的方向的，通过Hessian矩阵
找到H的特征向量u及对应的特征值 $\lambda$
将3项改写为 $\frac{1}{2}\lambda||u||^2$
沿着u，即特征值的方向更新 $\theta$ 即可降低loss
在这里插入图片描述

Example

在这里插入图片描述

实际应用中一般不会计算Hessian矩阵，因为计算量较大，还要计算特征值和特征向量，还有其他escape saddle point的方法

saddle point和local minima谁更常见

在不同维度空间中，会不会local minima变成saddle point？
即如果有更多参数，或许local minima就更少了？
在这里插入图片描述在经验中也支持这个假说：

实际上基本找不到所有特征值全正情况，由图可以看出在极端条件下也有一般是负特征值，也即实际上local minima的并不常见，总会找到可以使loss下降的方向

在这里插入图片描述

batch与momentum

每次计算loss时，是分别取batch进行计算L1,l2…ln
所有数据（n个batch）计算完成即为一个epoch
在每一个epoch开始之前会分一次batch，每一次的batch划分都不一样——shuffle

why batch？

观察两种极端情况：
batch size=N：要把所有数据处理一遍才能updata一次参数
batch size=1：每一次update是不稳定noisy的
在这里插入图片描述

较大batch size的计算时间不一定比较小batch size多（有平行运算的能力）有实验证明
因此当batch size小的时候，一个epoch花费时间会更多，在考虑平行运算时，big batch size更有优势

noisy gradient 可能会帮助训练准确度，大的batch size可能会带来不好的结果

小的batch在testing时得到较好效果
在峡谷里的local minima是bad minima
大的batch size倾向于走到峡谷里

总结
在这里插入图片描述

batch size：炼丹超参

momentum（动量）

在这里插入图片描述

物理引入，通过动量让gradient decent越过critical point

（一般的）gradient过程
在这里插入图片描述 加上动量的gradient decent过程
会考虑前一步方向再decent

一种改变梯度方向的策略，防止陷入local minima
考虑过去所有gradient总和
由于惯性可能会越过山坡找到更低处——momentum的好处

总结
在这里插入图片描述

Adaptive learning rate

当loss不再下降时，gradient不一定变得很小

在这里插入图片描述

find learning rate

在这里插入图片描述

root mean square(Adagrad算法)

在这里插入图片描述

RMSProp

自行调整当前gradient的权重（重要性）

在这里插入图片描述目前最常用的optimization：Adam算法——RMSProp+Momentum
Adam original paper

learning rate scheduling

learning rate decay : 接近终点时可以让learning rate减小，让更新慢下来
warm up: learning rate 先变大再变小
在这里插入图片描述

bert 中需要warm up
transformer 中也有
详情可参考论文RAdam

optimization总结

在这里插入图片描述

loss函数的影响

以分类问题为例

在这里插入图片描述

使用回归方式求解分类问题：以模型输出数值贴近分类表示值来表示，属于某一类别；但是按照这样表示class1有更大可能相似于class2，而与class3有更大不同，但不是所有分类方式都是数值接近而相似的。

将每个class用独热向量表示
（class两两之间距离相同）
在这里插入图片描述

softmax
两个class用sigmoid函数

损失距离的度量

再去计算 $\hat{y}$ 与 $y$ 之间距离，作为损失函数并使其最小
有多种方式计算距离
在这里插入图片描述

cross-entropy是最适合分类问题的
cross-entropy和softmax是一个set，总是绑在一起使用

why cross-entropy

在这里插入图片描述

固定y3=-1000,不考虑其影响，y1,y2在【-10，10】之间变化
对loss的影响
左上角处：MSE会卡住，cross entropy有斜率可以往右下角（优化方向步进）
因此使用MSE可能训练困难，即使使用较好的optimization（Adam）在开始处也可能loss下降较慢，相反使用cross entropy就没有这种担心

因此可以看出，loss函数的选择也会影响训练效率