cs231n lecture 16 7.1笔记--更好的优化

最新推荐文章于 2022-08-26 21:43:25 发布

Djoli

最新推荐文章于 2022-08-26 21:43:25 发布

阅读量285

点赞数

分类专栏： cv #cs231n

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Djoli/article/details/102985618

版权

#cs231n 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

last time:

activation function：sigmoid, tanh, relu, leacky relu, maxout, ELU
weight initialization：Xavier初始化，MSRA初始化。初始化过小无法学习，过大梯度消失。
data preprocessing：中心化，归一化。好处是让loss对参数值中的小扰动不那么敏感。
batch normalization
babysitting learning
hyperparameter search
1. grid search,random search, coarse to fine search(粗细粒交叉搜索)

通常学习率 > 正则化、学习率衰减、模型size。

卡在局部最优解的问题，在直观上是存在的但实际并不会。

SGD的问题：

1. very slow progress along shallow dimension, jitter along steep direction

2. 会卡在局部最小点和鞍点

3. stochastic

解决：SGD + Momentum

rho gives friction, and typically rho =0.9 or 0.99（也可以理解成最近梯度平均的平滑移动）

=> nesterov momentum, 据说在凸优化问题上效果不错。

momentum中的速度不是超参数，初始化设置为0即可。

sgd + momentum能够帮助度过sharp minima，如果遇到较宽泛的minima呢？老师说，一来这样的问题出现往往预示了过拟合，所以扩大数据集有用。二来甚至希望达到一个平缓的minima，这样能够更好地训练其泛化能力？

AdaGrad

grad_squared = 0

while True:

dx = compute_gradient(x)

grad_squared += dx * dx

x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

adagrad能够使x在变化率高的轴上减速，变化小的轴上加速，从而缓解jitter。

adagrad随着时间增加，步长会逐渐缩短，这在凸函数优化问题上有利于收敛，但其他问题则得不偿失。

=> RMSProp

grad_squared = 0

while True:

dx = compute_gradient(x)

grad_squared = decay_rate * grad_squared + (1 - decay_rate) * dx * dx

x -= learning_rate * dx / (np.sqrt(grad_squared) + 1e-7)

decay_rate通常取0.9之类。这样的好处是依然能够使训练在较快的方向渐缓，较慢的方向增快。并且不像adagrad那样容易被卡住。

Adam(full form)

因为效果优异，基本就是默认算法了。beta1 = 0.9, beta2 = 0.999, and learning_rate = 1e-3 or 5e-4是开始新模型时最常用的设定。

但这些算法都难以解决loss等高线如墨西哥卷形状不沿着坐标轴对齐，那么这些算法就是能够提供压缩但无法扭正。

learning rate decay over time!

带动向量的SGD很常用lr decay，但是Adam很少用。而且因为lr decay是二阶超参数，所以一开始最好不用，而是观察原来情况后再选择使用。

事实上，也有二阶优化的思路。一阶梯度带来的下降可能不如二阶函数拟合的到位

=> Newton parameter

这个算法甚至降低了对learning_rate的需要。但因为牛顿法中需要求矩阵的逆，往往不能计算，所以也有拟牛顿法，去低阶拟近hessian

L-BFGS是一个二阶逼近的求导器。二阶的思路虽好，但在深度学习中可能不太常用。

此前谈论的最优化问题只是针对train data，如果想提升泛化性能

=> Model Ensembles(虽然没有什么吊提升，但是每次提升程度都很稳)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。