Grandient Desent
learning rate
1. smaller learning rate: 更新速度太慢
2. bigger learning rate: 太早收敛,得不到较好的解
3. adaptive learning rate: 根据参数和迭代次数来调整learning rates
Adaptive Learning Rates
- 对每个不同的参数,都有不同的learning rate
- 直觉解释是造成反差的大小,理论上解释有点复杂,主要是一阶微分和二阶微分的比值,而随机sample多一些一阶微分值,预估出大概多二阶微分值,一般而言,二阶微分值较大的情况下,大多数一阶微分值也较大
Stochastic Gradient Desent
Feature Scaling
- Feature Scaling的原因是让整个loss的等高线趋向于圆形,使得每次的负梯度方向都是趋近于一致的;否则将呈现一种椭圆形,负梯度方向一直在变化,降低效率。
- Gradient Descent 数学原理
Gradient Descent基于泰勒展开,只考虑一阶导数,要每次调整参数至邻域范围内最小loss值处。loss值最小,即朝一阶微分的反方向调整。
其中learning rate和红色圆圈的直径d成正比,泰勒展开忽略其他项的要求是d要足够小
- Grandient Descent问题
现实中主要的问题是在一阶微分较小的情况下,难以进行参数调整