机器学习中随机梯度下降算法总结分析

最新推荐文章于 2024-07-31 14:47:45 发布

皮皮猪QAQ

最新推荐文章于 2024-07-31 14:47:45 发布

阅读量3.4k

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_39037383/article/details/89156894

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

我们为什么要使用梯度下降算法
人类都是渐进学习的，不断从错误中纠正自己的认知，这恰巧就是梯度下降算法的思想。
梯度下降算法
在这里插入图片描述
随机选择一个方向，然后每次迈步都选择最陡的方向，直到这个方向上能达到的最低点。
梯度下降算法的作用都有哪些？
在机器学习中有些算法需要对模型构建损失函数以求得需要的系数，然而在损失函数的计算中，我们可能不能获得最佳方案，而梯度下降算法正是一种对损失函数的优化算法，以便损失函数取得最佳的参数，使损失函数的值最小。而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法(Gradient Descent, GD)。
优点：效率。在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，可以在很多大规模数据集上应用
缺点：求解的是局部最优值，即由于方向选择的问题，得到的结果不一定是全局最优步长选择过小使得函数收敛速度慢，过大又容易找不到最优解。
梯度下降算法的实现
1.初始化参数为任意值（可以取到面上任意一点）
2.求解梯度值
在这里插入图片描述
ti梯度的求解方法：求特征向量的偏导数，得到法向量，梯度向量与法向量相互垂直，从而求得梯度的值
3.更新参数

4.若达到指定迭代次数或者收敛条件，则训练结束

下面列举一个三维空间求梯度：
梯度下降法为沿着梯度下降的方向求解极小值，而梯度上升法则为以梯度上升的方向求极大值，而在这里插入图片描述

随机梯度下降
随机梯度下降法不是对每个样本集进行求梯度更新参数，而是对一个或者多个样本进行求梯度，更新参数。采集多个样本为样本集再进行如下操作

  1.初始化参数为任意值（可以取到面上任意一点）
  2.对样本集里每个样本进行遍历如下操作
      1.求解梯度值

      2.更新参数
   
  3.若达到指定迭代次数或者收敛条件，则训练结束

梯度下降法分为批量梯度下降法BGD(Batch Gradient Descent)、小批量梯度下降法MBGD（mini-batch Gradient Descent）、随机梯度下降法SGD（stochastic gradient descent）
而SGD可以看成MBGD的一个一个特例，及batch_size=1的情况。在深度学习及机器学习中，基本上都是使用的MBGD算法。