1、等值线
\quad
定义:在高维空间
n
≥
3
n\geq3
n≥3中,使目标函数值取同一常数的点集
{
X
∣
f
(
X
)
=
c
,
c
为
常
数
}
\{X|f(X)=c,c为常数\}
{X∣f(X)=c,c为常数}称为
f
(
X
)
f(X)
f(X)的等值线。
对于连续的单值函数,其等值线具有以下性质:
- 不同的等值线不想交
- 除极值点所在的等值线外,等值线不会中断
- 等值线稠密的地方,目标函数值变化较快
- 在极值点附近,等值线近似呈同心椭圆簇
2、可微与梯度
\quad
定义:设
f
:
D
⊂
R
n
,
且
X
0
∈
D
f:D⊂R^n,且X^0\in D
f:D⊂Rn,且X0∈D,若存在
n
n
n维向量
L
L
L,对任意
n
n
n维向量
P
P
P,都有
l
i
m
∣
∣
P
∣
∣
−
>
0
f
(
X
0
+
P
)
−
f
(
X
0
)
−
L
T
P
∣
∣
P
∣
∣
=
0
lim_{||P||->0}\frac{f(X^0+P)-f(X^0)-L^TP}{||P||}=0
lim∣∣P∣∣−>0∣∣P∣∣f(X0+P)−f(X0)−LTP=0则称
f
(
X
)
f(X)
f(X)在
X
0
X^0
X0可微。(直观理解为:分子趋于0的速度比分母快。根据定义可以解出
L
=
(
∂
f
(
X
0
)
∂
x
1
,
∂
f
(
X
0
)
∂
x
2
,
⋯
 
,
∂
f
(
X
0
)
∂
x
n
)
T
L=(\frac{\partial f(X^0)}{\partial x_1},\frac{\partial f(X^0)}{\partial x_2},\cdots,\frac{\partial f(X^0)}{\partial x_n})^T
L=(∂x1∂f(X0),∂x2∂f(X0),⋯,∂xn∂f(X0))T
\quad
梯度:依次以
f
(
X
)
f(X)
f(X)的
n
n
n个偏导数为分量的向量
∇
f
(
X
)
∇f(X)
∇f(X)称为
f
(
X
)
f(X)
f(X)的梯度。
∇
f
(
X
)
=
L
∇f(X)=L
∇f(X)=L。引入梯度后,
f
(
X
0
+
P
)
=
f
(
X
0
)
+
∇
f
(
X
0
)
P
+
o
(
∣
∣
P
∣
∣
)
f(X^0+P)=f(X^0)+∇f(X^0)P+o(||P||)
f(X0+P)=f(X0)+∇f(X0)P+o(∣∣P∣∣)。梯度性质如下:
- 若 ∇ f ( X 0 ) ≠ 0 ∇f(X^0)\neq0 ∇f(X0)̸=0,则 ∇ f ( X 0 ) ∇f(X^0) ∇f(X0)与过 X 0 X^0 X0的等值线垂直
- 沿梯度方向函数具有最大的变化率
- ∇ ( b T X ) = b , b = ( b 1 , b 2 , ⋯   , b n ) T ∈ R n ∇(b^TX)=b,b=(b_1,b_2,\cdots,b_n)^T\in R^n ∇(bTX)=b,b=(b1,b2,⋯,bn)T∈Rn
- ∇ ( X T X ) = 2 X ∇(X^TX)=2X ∇(XTX)=2X
- ∇ ( X T A X ) = 2 A X ∇(X^TAX)=2AX ∇(XTAX)=2AX,这里 A = A T A=A^T A=AT
- ∇ ( X T A X ) = A X + A T X ∇(X^TAX)=AX+A^TX ∇(XTAX)=AX+ATX
3、方向导数
\quad 定义:设 P ∈ R n , ∣ ∣ P ∣ ∣ = 1 P\in R^n,||P||=1 P∈Rn,∣∣P∣∣=1,可微函数 f ( X ) f(X) f(X)在 X X X点沿 P P P的方向导数为: d ( f ( X ) ) d ( P ) = lim α − > 0 + f ( X + α P ) − f ( X ) ∣ ∣ α P ∣ ∣ = lim α − > 0 + ∇ f ( X ) T ( α P ) + o ( ∣ ∣ α P ∣ ∣ ) ∣ ∣ α P ∣ ∣ = ∇ f ( X ) T P = ∣ ∣ ∇ f ( X ) ∣ ∣ c o s ( ∇ f ( X ) , P ) \frac{d(f(X))}{d(P)}=\lim_{\alpha->0^+}\frac{f(X+\alpha P)-f(X)}{||\alpha P||}=\lim_{\alpha->0^+}\frac{∇f(X)^T(\alpha P)+o(||\alpha P||)}{||\alpha P||}=∇f(X)^TP=||∇f(X)||cos(∇f(X),P) d(P)d(f(X))=α−>0+lim∣∣αP∣∣f(X+αP)−f(X)=α−>0+lim∣∣αP∣∣∇f(X)T(αP)+o(∣∣αP∣∣)=∇f(X)TP=∣∣∇f(X)∣∣cos(∇f(X),P)其中, ∇ f ( X ) , P ∇f(X),P ∇f(X),P表示 ∇ f ( X ) ∇f(X) ∇f(X)和 P P P的夹角。可见要使函数值下降最快,需要使得 c o s ( ∇ f ( X ) , P ) = − 1 cos(∇f(X),P)=-1 cos(∇f(X),P)=−1,即 P = − β ∇ f ( X ) P=-\beta ∇f(X) P=−β∇f(X)。沿着负梯度的方向函数值下降得最快。
4、Hesse矩阵
\quad
定义:函数
f
(
X
)
f(X)
f(X)具有二阶连续偏导数,则对
f
(
X
)
f(X)
f(X)求二阶偏导得到的矩阵是Hesse矩阵,一定是对称矩阵。
∇
2
f
(
X
)
=
∂
2
f
(
X
)
∂
x
1
2
∂
2
f
(
X
)
∂
x
2
∂
x
1
⋯
∂
2
f
(
X
)
∂
x
n
∂
x
1
∂
2
f
(
X
)
∂
x
1
∂
x
2
∂
2
f
(
X
)
∂
x
2
2
⋯
∂
2
f
(
X
)
∂
x
n
∂
x
2
⋯
⋯
⋯
⋯
∂
2
f
(
X
)
∂
x
1
∂
x
n
∂
2
f
(
X
)
∂
x
2
x
n
⋯
∂
2
f
(
X
)
∂
x
n
2
∇^2f(X)=\begin{matrix} \frac{\partial^2 f(X)}{\partial x_1^2}& \frac{\partial^2 f(X)}{\partial x_2\partial x_1} & \cdots & \frac{\partial^2 f(X)}{\partial x_n\partial x_1} \\ \frac{\partial^2 f(X)}{\partial x_1\partial x_2} & \frac{\partial^2 f(X)}{\partial x_2^2} & \cdots & \frac{\partial^2 f(X)}{\partial x_n\partial x_2}\\\cdots & \cdots & \cdots & \cdots \\ \frac{\partial^2 f(X)}{\partial x_1\partial x_n} & \frac{\partial^2 f(X)}{\partial x_2x_n} & \cdots & \frac{\partial^2 f(X)}{\partial x_n^2} \end{matrix}
∇2f(X)=∂x12∂2f(X)∂x1∂x2∂2f(X)⋯∂x1∂xn∂2f(X)∂x2∂x1∂2f(X)∂x22∂2f(X)⋯∂x2xn∂2f(X)⋯⋯⋯⋯∂xn∂x1∂2f(X)∂xn∂x2∂2f(X)⋯∂xn2∂2f(X)
5、极小点与最优值
\quad 对于点 X ∗ X^* X∗邻域内任意点 X X X,都满足 f ( X ∗ ) ≤ f ( X ) f(X^*)\leq f(X) f(X∗)≤f(X),则 X ∗ X^* X∗为 f ( X ) f(X) f(X)的局部极小点, f ( X ∗ ) ≤ f ( X ) f(X^*)\le f(X) f(X∗)≤f(X),则 X ∗ X^* X∗为 f ( X ) f(X) f(X)的严格局部极小点。函数值 f ( X ∗ ) f(X^*) f(X∗)称为最优值。
6、驻点、极值点、鞍点和拐点
驻点:若
∇
f
(
X
∗
)
=
0
∇f(X^*)=0
∇f(X∗)=0,则
X
∗
X^*
X∗为
f
(
X
∗
)
f(X^*)
f(X∗)的驻点
极值点:若
∇
f
(
X
∗
)
=
0
∇f(X^*)=0
∇f(X∗)=0,且
∇
2
f
(
X
∗
)
∇^2f(X^*)
∇2f(X∗)是正定矩阵,则
X
∗
X^*
X∗是
f
(
X
)
f(X)
f(X)的严格局部极小点(若
∇
2
f
(
X
∗
)
∇^2f(X^*)
∇2f(X∗)是半正定矩阵,其他条件不变,那么
X
∗
X^*
X∗不一定是
f
(
X
)
f(X)
f(X)的局部极小点,也可能是鞍点)
鞍点:是驻点而不是极值点的点统称为鞍点
拐点:函数凹凸性改变的变
7、凸集和凸函数
\quad
凸集:若集合D中任意两点连线仍在D中,则D为凸集
\quad
凸函数:设D是凸集,若对所有的
X
1
,
X
2
∈
D
,
α
∈
(
0
,
1
)
X^1,X^2\in D,\alpha\in(0,1)
X1,X2∈D,α∈(0,1),都有
f
(
α
X
1
+
(
1
−
α
)
X
2
)
≤
α
f
(
X
1
)
+
(
1
−
α
)
f
(
X
2
)
f(\alpha X^1+(1-\alpha)X^2)\leq \alpha f(X^1)+(1-\alpha)f(X^2)
f(αX1+(1−α)X2)≤αf(X1)+(1−α)f(X2)则
f
(
X
)
f(X)
f(X)为D上的凸函数。
\quad
凸函数充要条件:设D是凸集,
f
(
X
)
f(X)
f(X)在D上具有连续的二阶偏导数,则
f
(
X
)
f(X)
f(X)在D上是凸函数的充要条件是
∇
2
f
(
X
)
∇^2f(X)
∇2f(X)是半正定矩阵。
8、凸优化
- 局部最优解为全局最优解
- 最优解集为单点集