机器学习中随机梯度下降算法总结分析

我们为什么要使用梯度下降算法
人类都是渐进学习的,不断从错误中纠正自己的认知,这恰巧就是梯度下降算法的思想。
梯度下降算法
在这里插入图片描述
随机选择一个方向,然后每次迈步都选择最陡的方向,直到这个方向上能达到的最低点。
梯度下降算法的作用都有哪些?
在机器学习中有些算法需要对模型构建损失函数以求得需要的系数,然而在损失函数的计算中,我们可能不能获得最佳方案,而梯度下降算法正是一种对损失函数的优化算法,以便损失函数取得最佳的参数,使损失函数的值最小。而在求解机器学习参数的优化算法中,使用较多的就是基于梯度下降的优化算法(Gradient Descent, GD)。
优点:效率。在梯度下降法的求解过程中,只需求解损失函数的一阶导数,计算的代价比较小,可以在很多大规模数据集上应用
缺点:求解的是局部最优值,即由于方向选择的问题,得到的结果不一定是全局最优步长选择过小使得函数收敛速度慢,过大又容易找不到最优解。
梯度下降算法的实现
1.初始化参数为任意值(可以取到面上任意一点)
2.求解梯度值
在这里插入图片描述
ti梯度的求解方法:求特征向量的偏导数,得到法向量,梯度向量与法向量相互垂直,从而求得梯度的值
3.更新参数
在这里插入图片描述
4.若达到指定迭代次数或者收敛条件,则训练结束
在这里插入图片描述
下面列举一个三维空间求梯度:
梯度下降法为沿着梯度下降的方向求解极小值,而梯度上升法则为以梯度上升的方向求极大值,而在这里插入图片描述

随机梯度下降
随机梯度下降法不是对每个样本集进行求梯度更新参数,而是对一个或者多个样本进行求梯度,更新参数。采集多个样本为样本集再进行如下操作

  1.初始化参数为任意值(可以取到面上任意一点)
  2.对样本集里每个样本进行遍历如下操作
      1.求解梯度值

      2.更新参数
   
  3.若达到指定迭代次数或者收敛条件,则训练结束

梯度下降法分为批量梯度下降法BGD(Batch Gradient Descent)、小批量梯度下降法MBGD(mini-batch Gradient Descent)、随机梯度下降法SGD(stochastic gradient descent)
而SGD可以看成MBGD的一个一个特例,及batch_size=1的情况。在深度学习及机器学习中,基本上都是使用的MBGD算法。

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值