李宏毅机器学习——学习笔记（4） Gradient desent

最新推荐文章于 2024-08-10 11:44:37 发布

青芒·1

最新推荐文章于 2024-08-10 11:44:37 发布

阅读量215

点赞数

文章标签： Gradient desent

本文链接：https://blog.csdn.net/m0_37757740/article/details/88677796

版权

Grandient Desent

1. smaller learning rate: 更新速度太慢
2. bigger learning rate: 太早收敛，得不到较好的解
3. adaptive learning rate: 根据参数和迭代次数来调整learning rates

在这里插入图片描述

在这里插入图片描述

直觉解释是造成反差的大小，理论上解释有点复杂，主要是一阶微分和二阶微分的比值，而随机sample多一些一阶微分值，预估出大概多二阶微分值，一般而言，二阶微分值较大的情况下，大多数一阶微分值也较大

在这里插入图片描述

Feature Scaling的原因是让整个loss的等高线趋向于圆形，使得每次的负梯度方向都是趋近于一致的；否则将呈现一种椭圆形，负梯度方向一直在变化，降低效率。
Gradient Descent 数学原理
Gradient Descent基于泰勒展开，只考虑一阶导数，要每次调整参数至邻域范围内最小loss值处。loss值最小，即朝一阶微分的反方向调整。
其中learning rate和红色圆圈的直径d成正比，泰勒展开忽略其他项的要求是d要足够小
Grandient Descent问题
现实中主要的问题是在一阶微分较小的情况下，难以进行参数调整