区别
函数上当前点对应的梯度方向是增大最快的方向,反方向是减小最快的方向
梯度上升
要计算的是函数的极大值,如最大化似然函数,加上学习率 * 梯度θ ≔ θ + α * ∇??(?)
梯度下降
要计算的是函数的极小值,如最小化损失函数,减去学习率 * 梯度θ ≔ θ - α * ∇??(?)
概念混淆使用
在某些地方可能说是梯度下降,但是用的却是加法,有两种解释:
- 减号代入了梯度中
- 梯度下降和梯度上升本质上是一样的,将梯度上升说成了梯度下降
反之亦然
使用条件
某一点上梯度存在的必要条件:函数h(x)在该点可微且存在定义。
可微:设函数y= f(x),若自变量在点x的改变量Δx与函数相应的改变量Δy有关系Δy=A×Δx+ο(Δx),其中A与Δx无关,则称函数f(x)在点x可微,并称AΔx为函数f(x)在点x的微分,记作d