批量梯度下降 | 随机梯度下降 | 小批度梯度下降

1. 什么是梯度?求梯度有什么公式?

  1. 什么是梯度? 区分:梯度向量、Jacobian、Hessian矩阵
    在这里插入图片描述

    在这里插入图片描述

  2. 求梯度向量的公式:【以下公式的证明点击此处查看】
    在这里插入图片描述

2. 批量梯度下降 | 随机梯度下降 | 小批度梯度下降 区别

  1. 批量梯度下降:经过训练集的所有样本后才更新一次参数
    1. 最后得到的是一个全局最优解。
    2. 由于算法复杂度是看迭代次数,所以适用于样本量大的情况。
  2. 随机梯度下降:每经过到训练集的一个样本就更新一次参数
    1. 最后得到的可能是全局最优解,也可能是局部最优解。
    2. 由于算法复杂度是看迭代次数,所以适用于样本量较小的情况。(样本量越少越容易更快的找到极值点)
  3. 小批度梯度下降:是批量梯度下降与随机梯度下降的折中。对于所有要经过的点,经过一小批点更新一次参数
    1. 最后得到的可能是全局最优解,也可能是局部最优解。
    2. 适用于样本量折中的一种情况。

举一个例子:

感知机模型中经验风险为:

在这里插入图片描述

假设目标函数为经验风险最小化,那么对 Remp(w, b) 求梯度有:(使用上面提到的求梯度的公式很容易得到以下结果)
在这里插入图片描述

  1. 由于梯度是航叔上升或下降最快的方向,所以自然的得到参数的更新公式:
    在这里插入图片描述
    很显然,这是经过训练集的所有样本后才更新一次参数。这就是批量梯度下降

  2. 只需要将上面的求和去掉就变成了经过一个样本更新一次参数。即:随机梯度下降
    在这里插入图片描述

3. 随机梯度下降的两种方式:原始形式 和 对偶形式

随机梯度下降的核心是每经过到训练集的一个样本就更新一次参数。而对于参数更新的公式也可以不同。

  1. 原始形式的随机梯度下降:就是前面介绍的,根据批量梯度下降的参数迭代公式改进得到。

  2. 对偶形式的随机梯度下降:根据原始形式的随机梯度下降的参数迭代公式改进得到。降低了计算量。

    注意:只要某方法有对应的对偶形式,那么它一定是对原始形式在以下3个方面之一做了优化:

    1. 降低时间复杂度
    2. 降低空间复杂度
    3. 原问题无法解决,使用对偶形式就可以解决。

还是拿感知机模型的例子举例:

  1. 原始形式:
    在这里插入图片描述

  2. 改进过程:

在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ElegantCodingWH

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值