为什么梯度的反方向为下降速度最快的方向?
x , y 都表示 权重,f 表示损失函数。1.可由近似公式得到:
f ( x + Δ x , y + Δ y ) = f ( x , y ) + ∂ f ∂ x ⋅ Δ x + ∂ f ∂ y ⋅ Δ y f(x+ \Delta x,y+\Delta y)=f(x,y)+\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y f(x+Δx,y+Δy)=f(x,y)+∂x∂f⋅Δx+∂y∂f⋅Δy
2.即:
f ( x + Δ x , y + Δ y ) − f ( x , y ) = ∂ f ∂ x ⋅ Δ x + ∂ f ∂ y ⋅ Δ y f(x+\Delta x,y+\Delta y)-f(x,y)=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y f(x+Δx,y+Δy)−f(x,y)=∂x∂f⋅Δx+∂y∂f⋅Δy
3.
Δ z = ∂ f ∂ x ⋅ Δ x + ∂ f ∂ y ⋅ Δ y \Delta z=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y Δz=∂x∂f⋅Δx+∂y∂f⋅Δy
因为 Δ z \Delta z Δz 表示变化量 ,最大值表示 变化最大 (增加最大),即增加最快的方向。
最小值表示下降最大,即下降最快的方向。 等式右边可写作向量的形式。
4.
(
∂
f
∂
x
,
∂
f
∂
y
)
⋅
(
Δ
x
,
Δ
y
)
(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})\cdot(\Delta x,\Delta y)
(∂x∂f,∂y∂f)⋅(Δx,Δy)
左边表示 梯度,所以梯度的反方向 乘积最小,二者夹角-180度, 即下降最快。
5.
所以:
(
Δ
x
,
Δ
y
)
=
−
a
(
∂
f
∂
x
,
∂
f
∂
y
)
(\Delta x,\Delta y) = - a(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})
(Δx,Δy)=−a(∂x∂f,∂y∂f)
所以:
x
+
Δ
x
=
x
−
a
⋅
∂
f
∂
x
x+\Delta x = x-a\cdot\frac{\partial f}{\partial x}
x+Δx=x−a⋅∂x∂f
y
+
Δ
y
=
y
−
a
⋅
∂
f
∂
y
y+\Delta y = y-a\cdot\frac{\partial f}{\partial y}
y+Δy=y−a⋅∂y∂f