李宏毅机器学习笔记Day5

最新推荐文章于 2024-08-26 16:38:20 发布

RosieDragon

最新推荐文章于 2024-08-26 16:38:20 发布

阅读量111

点赞数

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/qq_45848398/article/details/124931781

版权

Optimization 失败
loss不够小，gradient接近0，但不是local minima（局部最小值），或者是saddle point（鞍点），卡在critical point。
在这里插入图片描述
Saddle point 和local minima 哪一个比较常见
Saddle point比较常见
不断地测试一个network，直到它到一个critical point，由minimum ratio可以知道，其实local minima并不是很常见。

对抗saddle point的训练技巧（Batch和Momentum ）
Batch
将训练资料分为N个batch，每次取一个batch进行计算gradient
在这里插入图片描述
Small batch和large batch
当不分batch时，更新参数要看所有的examples，但是比较稳，当batch size为1时，每次更新参数只用看一个Batch，但不稳。
但是当larger batch的size不是特别大时，计算gradient并不需要更长的时间，smaller batch需要更长的时间跑完一个epoch。
在这里插入图片描述
但是smaller batch更加有利于training。
Overfitting ：小的batch差。

Momentum
Movement：gradient 的反方向加上前一步移动的方向
一个example，因为有momentum，所以不会卡在saddle point。