李宏毅机器学习-梯度下降

学习率 learning rates

在这里插入图片描述

学习率的调整

learning rate 太小了 下降得太慢
learning rate 太大了 下降的很快 很可能永远达不到最低点
在这里插入图片描述

自适应学习率

随着次数的增加,通过一些因子来减少学习率通常刚开始,初始点会距离最低点比较远,所以使用大一点的学习率,update好几次参数之后呢,比较靠近最低点了,此时减少学习率
在这里插入图片描述

Adagrad 算法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在 Adagrad 中,当梯度越大的时候,步伐应该越大,但下面分母又导致当梯度越大的时候,步伐会越小。考虑的更多的是反差,如果有某个参数反差很大,分母是过去的gradient。
在这里插入图片描述
最好的步伐应该是一次微分/二次微分
在这里插入图片描述

随机梯度下降

经典的梯度下降法采用所有的训练数据的平均损失来近似目标函数。经典的梯度下降法在每次对模型参数进行更新时,需要遍历所有的训练数据。当M很大的时候,就需要耗费巨大的计算资源和计算时间,这在实际过程中基本不可行。那么,该怎么办呢?
为了解决该问题,随机梯度下降法(Stochastic Gradient Descent, SGD)应运而生。它采用单个训练样本的损失来近似平均损失

特征缩放

泰勒展开式

在这里插入图片描述

在这里插入图片描述

多变量展开式

在这里插入图片描述

梯度下降限制

local minima
stuck at saddle point
very slow at the plateau
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值