梯度在机器学习和深度学习中是一个高频词汇,弄懂梯度的概念对梯度下降,反向传播的理解有很大帮助。这里我根据个人理解,对梯度的反方向是函数下降最快的方向这一观点进行解释。限于作者水平,难免有错误之处,欢迎批评指正。
导数
说到梯度,就不可避免的要谈导数。对于单变量函数
f
(
x
)
f(x)
f(x)在点
x
0
x_0
x0处连续,则函数
f
(
x
)
f(x)
f(x)在点
x
0
x_0
x0处的导数为:
f
′
(
x
0
)
=
lim
Δ
x
−
>
0
Δ
y
Δ
x
=
lim
Δ
x
−
>
0
f
(
x
0
+
Δ
x
)
−
f
(
x
0
)
Δ
x
\begin{aligned} f^{'}(x_0) &=\lim_{\Delta x->0}\frac{\Delta y}{\Delta x}\\ &=\lim_{\Delta x->0}\frac{f(x_0+\Delta x)-f(x_0)}{\Delta x} \end{aligned}
f′(x0)=Δx−>0limΔxΔy=Δx−>0limΔxf(x0+Δx)−f(x0)
偏导
对于多个自变量的函数,就需要求偏导数。这里用两个自变量的函数为例,多个自变量的函数类似 。
假设函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处连续,则函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处的偏导为:
f
x
(
x
0
,
y
0
)
=
lim
Δ
x
−
>
0
f
(
x
0
+
Δ
x
,
y
0
)
−
f
(
x
0
,
y
0
)
Δ
x
f
y
(
x
0
,
y
0
)
=
lim
Δ
y
−
>
0
f
(
x
0
,
y
0
+
Δ
y
)
−
f
(
x
0
,
y
0
)
Δ
y
\begin{aligned} & f_{x}(x_0, y_0) = \lim_{\Delta x->0} \frac {f(x_0+\Delta x, y_0)-f(x_0, y_0)} {\Delta x} \\ & f_{y}(x_0, y_0) = \lim_{\Delta y->0} \frac {f(x_0, y_0+\Delta y) - f(x_0, y_0)} {\Delta y} \end{aligned}
fx(x0,y0)=Δx−>0limΔxf(x0+Δx,y0)−f(x0,y0)fy(x0,y0)=Δy−>0limΔyf(x0,y0+Δy)−f(x0,y0)
函数
f
(
x
,
y
)
f(x, y)
f(x,y)在点
(
x
0
,
y
0
)
(x_0, y_0)
(x0,y0)处的偏导可以记作:
∇
f
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
+
f
y
(
x
0
,
y
0
)
\nabla f(x_0, y_0) = f_x(x_0, y_0) + f_y(x_0, y_0)
∇f(x0,y0)=fx(x0,y0)+fy(x0,y0)。
梯度
由于偏导不能直接表示方向,所以这里选用单位方向向量
u
=
cos
θ
i
+
sin
θ
j
u=\cos\theta i+\sin\theta j
u=cosθi+sinθj,其中
θ
\theta
θ为单位向量与
x
x
x轴的夹角,此时带有方向的偏导可以表示为:
D
(
x
0
,
y
0
)
=
f
x
(
x
0
,
y
0
)
cos
θ
+
f
y
(
x
0
,
y
0
)
sin
θ
D(x_0, y_0)= f_x(x_0, y_0)\cos\theta + f_y(x_0, y_0)\sin\theta
D(x0,y0)=fx(x0,y0)cosθ+fy(x0,y0)sinθ此时,就可以表示任意方向的偏导了。
这里对该表达式
D
D
D做一下变换:
A
=
(
f
x
(
x
0
,
y
0
)
,
f
y
(
x
0
,
y
0
)
)
A=(f_x(x_0, y_0), f_y(x_0, y_0))
A=(fx(x0,y0),fy(x0,y0)),
I
=
(
cos
θ
,
sin
θ
)
I=(\cos\theta, \sin\theta)
I=(cosθ,sinθ),则表达式
D
D
D的模为:
∣
D
∣
=
∣
A
∣
⋅
∣
I
∣
cos
α
|D|=|A|\cdot|I|\cos\alpha
∣D∣=∣A∣⋅∣I∣cosα,其中
α
\alpha
α为向量
A
A
A与向量
I
I
I的夹角。
这里我们可以很明显的看到,当
A
A
A与
I
I
I的方向相同时表达式
D
D
D的模最大,同理,当方向相反时,梯度最小,也就是梯度的反方向是函数下降最快的方向。