什么是梯度下降

L_Moonshine

已于 2022-03-09 21:12:13 修改

阅读量2.1k

点赞数 5

分类专栏：机器学习知识总结文章标签：机器学习深度学习

于 2021-10-26 16:09:56 首次发布

本文链接：https://blog.csdn.net/qq_44042505/article/details/120973350

版权

机器学习知识总结专栏收录该内容

7 篇文章 1 订阅

订阅专栏

何为梯度下降？

小概念
模型：调整参数后的程序。
监督学习：输入的数据有标签。
非监督学习：输入的数据没有标签。
监督学习常见的就是回归、分类
回归：通过已有的数据来预测新的数据，输出一个数值。
分类：希望有一条线将数据分割成不同的类别。输出一个预测的类别。
无论是回归，还是分类，我们目的都是让搭建好的模型尽可能的模拟已有的数据。
机器学习任务：回归、分类、结构学习
决定模型能否模拟成功的关键有两点，分别是参数和模型的结构。

模型中的参数成千上万，需要机器自己去寻找，这个寻找合适参数的过程就称为学习或者训练。

我们通常会使用一个工具来帮助调整模型参数，这个工具就是损失函数。

那什么是损失函数？
损失函数的定义：衡量模型模型预测的好坏。
损失函数就是用来表现预测与实际数据的差距程度，即误差。

通常来讲，损失越大、模型效果越差，损失越小、模型效果越好

如何去让误差更小呢？
真实的损失函数像是一个崎岖不平的山丘，找到最低点不容易，所以可以利用梯度，即梯度下降（一种优化算法–深度学习训练方法）

何为梯度下降？
梯度下降的定义：随机选择一个方向，然后每次迈步都选择最陡的方向，直到这个方向上能达到的最低点。

总结：梯度下降用来做什么？
在机器学习算法中,有时候需要对原始的模型构建损失函数,然后通过优化算法对损失函数进行优化，以便寻找到最优的参数，使得损失函数的值最小。而在求解机器学习参数的优化算法中，使用较多的就是基于梯度下降的优化算法。

梯度下降根据处理的训练数据不同，共有三种方式。
①批量梯度下降BGD
②小批量梯度下降MBGD
③随机梯度下降SGD

通俗易懂的解释一下这几个之间的区别！！！

梯度下降可以称之为---盲人下山法
①批量梯度下降BGD---拐杖周围挨着敲一圈，找个最陡的坡下山
②小批量梯度下降MBGD---拐杖周围随便敲几下，从里面找出最陡的坡下
③随机梯度下降SGD---朝着拐杖第一下随便敲的坡下山。

梯度算法的优缺点
优点：在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，可以在很多大规模数据集上应用
缺点：求解的是局部最优值，即由于方向选择的问题，得到的结果不一定是全局最优。
步长选择方面，过小使得函数收敛速度慢，过大又容易找不到最优解。

那什么是步长？即所谓的学习率：控制模型的学习进度

L_Moonshine

关注

5
点赞
踩
14

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录