[Datawhale组队学习|李宏毅机器学习]学习笔记05

最新推荐文章于 2024-07-21 22:38:55 发布

喜欢皂粉

最新推荐文章于 2024-07-21 22:38:55 发布

阅读量98

点赞数

文章标签：机器学习人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40054359/article/details/120840988

版权

本次学习章节包括：

李宏毅《机器学习/深度学习》2021课程（国语版本，已授权）

P5-P9 神经网络训练不起来怎么办？

一、local minima and saddle局部最小值和鞍点

最优化失败有两种情况：

情况一：loss function 下降到一个稳态，但是还没有达到预期值

情况二：loss function一开始就高高不减

从失败最后达到的点来分类，有local minima和saddle point。local minima是难以逃离的，而saddle point是可以进一步找到下降点的。

1.1 判断critical point

当梯度接近0，即达到一个critical point，如何判断它是local minima还是saddle point呢？

loss函数通过泰勒展开写成如下的形式，当一阶微分=0时达到critical point，此时可以通过观察二次微分（Hessian矩阵）来判断。

问题转化为判断H的正定、负定的问题。

特征值全>0，H是正定矩阵， $\theta'$ 是local minima

特征值全<0，H是负定矩阵， $\theta'$ 是local maxima

特征值有的<0有的<0，H是不是正定也不是负定矩阵， $\theta'$ 是saddle point

1.2 逃离saddle point

如果发现critical point是saddle point，那么恭喜你，这是一件好事。因为Hessian矩阵可以告诉我们更新的方向。

负的特征值对应的特征向量就是使loss function下降的方向。

但是因为特征值和特征向量计算的复杂性，实际操作中其实很少用这个方法。

有假说认为，在高维参数中，因为有很多条路可以走，实际上local minima是很少的。而从经验去谈，当参数个数很多，特征值全为正的概率是很小很小的。大部分情况下都是saddle point。

二、batch and momentum批次和动量

2.1 batch

每次只用一部分数据做微分用来更新参数。

large batch：~~long time~~（但如果使用GPU平行运算，不一定时间更长），powerful

small batch：short time， noisy

但是从经验上看small batch size在train data会有更好的表现，large batch容易发生optimization fails。因为small batch每次会产生新的loss function，不容易被“卡住”。

也有论文写small batch在test data会有更好的表现，更不容易过拟合。如下图所示，flat minima 比sharp minima更不容易过拟合。

总的来说，small batch和large batch 的对比可以总结成下表。找一个合适的size是很重要的。

2.2 momentum

每一步用前一次移动的方向减去目前的梯度。

有了momentum，就像给了小球一个动量，使它可以持续更新。

三、自动调整learning rate

四、损失函数也可能有影响

五、批次标准化

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Datawhale组队学习|李宏毅机器学习]学习笔记05

本次学习章节包括：李宏毅《机器学习/深度学习》2021课程（国语版本，已授权）P5-P9 神经网络训练不起来怎么办？一、local minima and saddle局部最小值和鞍点最优化失败有两种情况：情况一：loss function 下降到一个稳态，但是还没有达到预期值情况二：loss function一开始就高高不减从失败最后达到的点来分类，有local minima和saddle point。local minima是难以逃离的，而saddle point是可以进
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。