梯度下降法

梯度下降法是机器学习中常用的优化算法,通过沿负梯度方向迭代来最小化损失函数。文章介绍了梯度的定义和方向导数的概念,接着详细讲解了随机梯度下降(SGD)、小批量梯度下降(Mini-batch)和批量梯度下降(BGD)的区别和特点,包括它们在学习效率、收敛速度和处理非凸函数能力上的差异。最后,提到了一些梯度下降的优化算法,如Momentum、Nesterov、Adagrad、Adadelta、RMSprop和Adam。
摘要由CSDN通过智能技术生成
梯度下降法

1.原理

  • 方向导数
    如果函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 P ( x , y ) P(x,y) P(x,y)处可微,则函数在该点任一方向 L L L的方向导数都存在,且有 ∂ f ∂ l = ∂ f ∂ x cos ⁡ α + ∂ f ∂ y cos ⁡ β \frac{\partial f}{\partial l}=\frac{\partial f}{\partial x } \cos{\alpha}+\frac{\partial f}{\partial y}\cos{\beta} lf=xfcosα+yfcosβ α 、 β : 为 方 向 L 的 方 向 角 \alpha、\beta:为方向L的方向角 αβ:L方向导数表征了函数沿任意方向的变化的速度
  • 梯度
    设函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在平面区域 D D D内具有一阶连续偏导数,则对于每一个点 P ( x , y ) ∈ D P(x,y) \in D P(x,y)D,向量 ( ∂ f ∂ x , ∂ f ∂ y ) \left ( \frac{\partial f}{\partial x},\frac{\partial f}{\partial y} \right ) (xf,yf)为函数 z = f ( x , y ) z=f(x,y) z=f(x,y)在点 P P P处的梯度,记为grad f ( x , y ) f(x,y) f(x,y)
    某点的梯度是某点方向导数的最大值,因此梯度代表的方向是函数增长最快的方向,而沿负梯度方向为函数下降最快的方向。

2.梯度下降法

  • 初始化 θ \theta
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值