李宏毅机器学习——学习笔记(4) Gradient desent

Grandient Desent

learning rate

1. smaller learning rate: 更新速度太慢
2. bigger learning rate: 太早收敛,得不到较好的解
3. adaptive learning rate: 根据参数和迭代次数来调整learning rates
Adaptive Learning Rates

在这里插入图片描述

  • 对每个不同的参数,都有不同的learning rate

在这里插入图片描述

  • 直觉解释是造成反差的大小,理论上解释有点复杂,主要是一阶微分和二阶微分的比值,而随机sample多一些一阶微分值,预估出大概多二阶微分值,一般而言,二阶微分值较大的情况下,大多数一阶微分值也较大
    在这里插入图片描述
    在这里插入图片描述

Stochastic Gradient Desent

在这里插入图片描述

Feature Scaling
  • Feature Scaling的原因是让整个loss的等高线趋向于圆形,使得每次的负梯度方向都是趋近于一致的;否则将呈现一种椭圆形,负梯度方向一直在变化,降低效率。
    在这里插入图片描述
  • Gradient Descent 数学原理
    Gradient Descent基于泰勒展开,只考虑一阶导数,要每次调整参数至邻域范围内最小loss值处。loss值最小,即朝一阶微分的反方向调整。在这里插入图片描述
    其中learning rate和红色圆圈的直径d成正比,泰勒展开忽略其他项的要求是d要足够小
    在这里插入图片描述
  • Grandient Descent问题
    现实中主要的问题是在一阶微分较小的情况下,难以进行参数调整
    在这里插入图片描述
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值