梯度下降的进一步学习---李宏毅《机器学习》笔记04


一、调整learning rate

1.1 自适应学习率

  1. 刚开始,初始点距离最低点比较远,所以可以采用大一点的学习率
  2. 逐渐接近最低点时减少学习率
  3. 因此可以通过一些因子来减少学习率
  4. 例如 η t = η t / ( t + 1 ) 1 / 2 \eta^t=\eta^t/(t+1)^{1/2} ηt=ηt/(t+1)1/2

1.2 Adagrad算法

  1. 不同参数需要不同的学习率
  2. 每个参数的学习率都把它除以之前微分的均方根
  3. 比如,普通的梯度下降: w t + 1 = w t − η t g t w^{t+1}=w^t-\eta^tg^t wt+1=wtηtgt η t = η t / ( t + 1 ) 1 / 2 \eta^t=\eta^t/(t+1)^{1/2} ηt=ηt/(t+1)1/2 g t = ∂ L ( θ t ) / ∂ w g^t=\partial L(\theta^t) / \partial w gt=L(θt)/w
  4. 使用Adagrad: w t + 1 = w t − η t g t / σ t w^{t+1}=w^t-\eta^tg^t/\sigma^t wt+1=wtηtgt/σt
    σ t \sigma^t σt为该参数所有微分的均方根,因此对于每个参数都不一样

1.3 Adagrad算法存在的矛盾?

  1. 在 Adagrad 中,当梯度越大的时候,步伐应该越大,但下面分母又导致当梯度越大的时候,步伐会越小。所以如果踏出去的步伐和微分成正比,它可能是比较好的。因此得出结论:梯度越大,离最低点的距离越远。这个结论在多个参数的时候就不一定成立了。
  2. 最好的步伐应该是一次微分/二次微分
  3. 得到adagrad进一步的解释
    在这里插入图片描述

二、随机梯度下降法

  1. 随机挑选一个例子来计算loss函数,赶紧更新参数
    在这里插入图片描述

三、特征缩放

3.1 为什么要特征缩放?

  1. 个人认为可以按归一化理解,消除量纲的影响
    在这里插入图片描述

3.2 怎么做缩放?

  1. 例子,类似标准化
    在这里插入图片描述

四、梯度下降的理论基础

这部分挖个坑,回头再更

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值