梯度下降法原理

本文深入探讨了梯度下降法在机器学习中的应用,解释了为何需要梯度下降法来优化损失函数,并通过类比下山过程阐述了其基本思想。文章详细介绍了梯度的概念,包括单变量和多变量微分,以及梯度作为函数上升最快方向的含义。还讨论了学习率α的重要性,以及如何通过调整学习率避免错过局部最小值。最后,通过单变量和多变量函数的实例展示了梯度下降法的计算过程,并提到了其局限性——可能只能找到局部最优解,而非全局最优解。
摘要由CSDN通过智能技术生成

(该博文为一网友所写,非常详细易懂,故搬运过来以后方便回忆学习)
一、为什么需要梯度下降法
每个算法模型都有自己的损失函数,而损失函数包含了各个位置上的参数,我们的最终目标都是要找到使模型损失函数尽可能小的参数。
在学习简单线性回归时,我们使用最小二乘法来求损失函数的最小值,但是这只是一个特例。在绝大多数的情况下,损失函数是很复杂的(比如逻辑回归),根本无法得到参数估计值的表达式。因此需要一种对大多数函数都适用的方法。这就引出了“梯度算法”。
首先梯度下降(Gradient Descent, GD),不是一个机器学习算法,而是一种基于搜索的最优化方法。
梯度下降法通过导数告诉我们此时此刻某参数应该朝什么方向,以怎样的速度运动,能安全高效降低损失值,朝最小损失值靠拢。
二、什么是梯度
梯度是一个向量,具有大小和方向
梯度下降法的基本思想可以类比为一个下山的过程。
假设这样一个场景:一个人被困在山上,需要从山上下来(找到山的最低点,也就是山谷)。但此时山上的浓雾很大,导致可视度很低;因此,下山的路径就无法确定,必须利用自己周围的信息一步一步地找到下山的路。这个时候,便可利用梯度下降算法来帮助自己下山。怎么做呢,首先以他当前的所处的位置为基准,寻找这个位置最陡峭的地方,然后朝着下降方向走一步,然后又继续以当前位置为基准,再找最陡峭的地方,再走直到最后到达最低处;同理上山也是如此,只是这时候就变成梯度上升算法了

简单的来说,多元函数的导数(derivative)就是梯度(gradie

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值