梯度下降法原理

最新推荐文章于 2023-06-16 11:42:54 发布

Day~w~m

最新推荐文章于 2023-06-16 11:42:54 发布

阅读量833

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43596996/article/details/105188527

版权

本文深入探讨了梯度下降法在机器学习中的应用，解释了为何需要梯度下降法来优化损失函数，并通过类比下山过程阐述了其基本思想。文章详细介绍了梯度的概念，包括单变量和多变量微分，以及梯度作为函数上升最快方向的含义。还讨论了学习率α的重要性，以及如何通过调整学习率避免错过局部最小值。最后，通过单变量和多变量函数的实例展示了梯度下降法的计算过程，并提到了其局限性——可能只能找到局部最优解，而非全局最优解。

摘要由CSDN通过智能技术生成

（该博文为一网友所写，非常详细易懂，故搬运过来以后方便回忆学习）
一、为什么需要梯度下降法
每个算法模型都有自己的损失函数，而损失函数包含了各个位置上的参数，我们的最终目标都是要找到使模型损失函数尽可能小的参数。
在学习简单线性回归时，我们使用最小二乘法来求损失函数的最小值，但是这只是一个特例。在绝大多数的情况下，损失函数是很复杂的（比如逻辑回归），根本无法得到参数估计值的表达式。因此需要一种对大多数函数都适用的方法。这就引出了“梯度算法”。
首先梯度下降(Gradient Descent, GD)，不是一个机器学习算法，而是一种基于搜索的最优化方法。
梯度下降法通过导数告诉我们此时此刻某参数应该朝什么方向，以怎样的速度运动，能安全高效降低损失值，朝最小损失值靠拢。
二、什么是梯度
梯度是一个向量，具有大小和方向
梯度下降法的基本思想可以类比为一个下山的过程。
假设这样一个场景：一个人被困在山上，需要从山上下来(找到山的最低点，也就是山谷)。但此时山上的浓雾很大，导致可视度很低；因此，下山的路径就无法确定，必须利用自己周围的信息一步一步地找到下山的路。这个时候，便可利用梯度下降算法来帮助自己下山。怎么做呢，首先以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着下降方向走一步，然后又继续以当前位置为基准，再找最陡峭的地方，再走直到最后到达最低处；同理上山也是如此，只是这时候就变成梯度上升算法了

简单的来说，多元函数的导数(derivative)就是梯度(gradie