1. 偏导数&方向导数
导数是函数随自变量的变化率, 对于
一元函数:只有一个自变量x,那么函数y=f(x)的导数是,在某一点处沿x轴正方向的变化率;
多元函数:多个自变量,是多维向量,那么函数随自变量的变化怎么刻画呢?一个方法,就是衡量函数在给定方向上的变化率,这就是方向导数。方向导数的特例,就是函数随各个自变量(标量)的变化率,即函数的偏导数,也就是函数沿各个坐标轴正方向的方向导数;
对于
z
=
x
2
+
y
2
z = x^2+y^2
z=x2+y2形成的曲面,左图:红线表示
f
x
(
x
,
y
)
f_x(x,y)
fx(x,y)即
x
x
x轴偏导数,实际上是平行于x轴的平面与曲面相交得到的曲线(图中蓝色实现)在A点处的导数;中图:红线表示方向导数,xy平面不光有平行于坐标轴的直线,还有各种射线,射线决定的曲线在A点处的导数是方向导数。
2. 梯度
对于多元函数,各个方向都有方向导数。那么,函数可能在一些方向上增长的快(方向导数的值比较大),一些方向上增长的慢。所有这些方向中,会有一个增长最快的。梯度就是一个向量,其模为这个增长最快的速率(方向导数值),其方向为这个最快增长方向。
假设
f
x
(
x
,
y
)
f_x(x,y)
fx(x,y)为
x
x
x方向偏导数,假设
f
y
(
x
,
y
)
f_y(x,y)
fy(x,y)为
y
y
y方向偏导数,
u
u
u为单位向量,可表示为:
u
=
c
o
s
θ
i
+
s
i
n
θ
j
u=cos\theta i+sin\theta j
u=cosθi+sinθj,则
u
u
u方向的偏导数可用如下公式表示,随着
θ
\theta
θ的不同,可以求出任意方向的方向导数。
lim
t
→
0
=
f
(
x
0
+
t
c
o
s
θ
,
y
0
+
s
i
n
θ
)
−
f
(
x
0
,
y
0
)
t
\lim_{t \to 0} = \frac{f(x_0+tcos\theta,y_0+sin\theta) - f(x_0,y_0)}{t}
t→0lim=tf(x0+tcosθ,y0+sinθ)−f(x0,y0)
以上公式等价于:
D
u
f
(
x
,
y
)
=
f
x
(
x
,
y
)
c
o
s
θ
+
f
y
(
x
,
y
)
s
i
n
θ
,
设
A
=
(
f
x
(
x
,
y
)
,
f
y
(
x
,
y
)
)
,
I
=
(
c
o
s
θ
,
s
i
n
θ
)
则
:
D
u
f
(
x
,
y
)
=
A
⋅
I
=
∣
A
∣
∣
I
∣
c
o
s
α
(
α
为
A
和
I
之
间
的
夹
角
)
D_u f(x,y) = f_x(x,y)cos\theta+f_y(x,y)sin\theta,设A = (f_x(x,y),f_y(x,y)),I=(cos\theta,sin\theta) \\ 则:D_u f(x,y) = A \cdot I = |A| |I| cos\alpha (\alpha为A和I之间的夹角)
Duf(x,y)=fx(x,y)cosθ+fy(x,y)sinθ,设A=(fx(x,y),fy(x,y)),I=(cosθ,sinθ)则:Duf(x,y)=A⋅I=∣A∣∣I∣cosα(α为A和I之间的夹角)
当
α
=
0
\alpha=0
α=0时,
D
u
f
(
x
,
y
)
D_u f(x,y)
Duf(x,y)取值最大,即
I
I
I与
A
A
A平行时,方向导数最大,此时把A命名为梯度。
3. 为什么要用梯度下降法
https://blog.csdn.net/zhaodedong/article/details/103303688
https://www.cnblogs.com/pinard/p/5970503.html
4. 梯度下降与提督提升的区别
https://blog.csdn.net/qq_42003997/article/details/103682921