最优化(一)数学基础

1、等值线

\quad 定义:在高维空间 n ≥ 3 n\geq3 n3中,使目标函数值取同一常数的点集 { X ∣ f ( X ) = c , c 为 常 数 } \{X|f(X)=c,c为常数\} {Xf(X)=c,c}称为 f ( X ) f(X) f(X)的等值线。
对于连续的单值函数,其等值线具有以下性质:

  • 不同的等值线不想交
  • 除极值点所在的等值线外,等值线不会中断
  • 等值线稠密的地方,目标函数值变化较快
  • 在极值点附近,等值线近似呈同心椭圆簇

2、可微与梯度

\quad 定义:设 f : D ⊂ R n , 且 X 0 ∈ D f:D⊂R^n,且X^0\in D f:DRn,X0D,若存在 n n n维向量 L L L,对任意 n n n维向量 P P P,都有 l i m ∣ ∣ P ∣ ∣ − > 0 f ( X 0 + P ) − f ( X 0 ) − L T P ∣ ∣ P ∣ ∣ = 0 lim_{||P||->0}\frac{f(X^0+P)-f(X^0)-L^TP}{||P||}=0 limP>0Pf(X0+P)f(X0)LTP=0则称 f ( X ) f(X) f(X) X 0 X^0 X0可微。(直观理解为:分子趋于0的速度比分母快。根据定义可以解出 L = ( ∂ f ( X 0 ) ∂ x 1 , ∂ f ( X 0 ) ∂ x 2 , ⋯   , ∂ f ( X 0 ) ∂ x n ) T L=(\frac{\partial f(X^0)}{\partial x_1},\frac{\partial f(X^0)}{\partial x_2},\cdots,\frac{\partial f(X^0)}{\partial x_n})^T L=(x1f(X0),x2f(X0),,xnf(X0))T
\quad 梯度:依次以 f ( X ) f(X) f(X) n n n个偏导数为分量的向量 ∇ f ( X ) ∇f(X) f(X)称为 f ( X ) f(X) f(X)的梯度。 ∇ f ( X ) = L ∇f(X)=L f(X)=L。引入梯度后, f ( X 0 + P ) = f ( X 0 ) + ∇ f ( X 0 ) P + o ( ∣ ∣ P ∣ ∣ ) f(X^0+P)=f(X^0)+∇f(X^0)P+o(||P||) f(X0+P)=f(X0)+f(X0)P+o(P)。梯度性质如下:

  • ∇ f ( X 0 ) ≠ 0 ∇f(X^0)\neq0 f(X0)̸=0,则 ∇ f ( X 0 ) ∇f(X^0) f(X0)与过 X 0 X^0 X0的等值线垂直
  • 沿梯度方向函数具有最大的变化率
  • ∇ ( b T X ) = b , b = ( b 1 , b 2 , ⋯   , b n ) T ∈ R n ∇(b^TX)=b,b=(b_1,b_2,\cdots,b_n)^T\in R^n (bTX)=b,b=(b1,b2,,bn)TRn
  • ∇ ( X T X ) = 2 X ∇(X^TX)=2X (XTX)=2X
  • ∇ ( X T A X ) = 2 A X ∇(X^TAX)=2AX (XTAX)=2AX,这里 A = A T A=A^T A=AT
  • ∇ ( X T A X ) = A X + A T X ∇(X^TAX)=AX+A^TX (XTAX)=AX+ATX

3、方向导数

\quad 定义:设 P ∈ R n , ∣ ∣ P ∣ ∣ = 1 P\in R^n,||P||=1 PRn,P=1,可微函数 f ( X ) f(X) f(X) X X X点沿 P P P的方向导数为: d ( f ( X ) ) d ( P ) = lim ⁡ α − > 0 + f ( X + α P ) − f ( X ) ∣ ∣ α P ∣ ∣ = lim ⁡ α − > 0 + ∇ f ( X ) T ( α P ) + o ( ∣ ∣ α P ∣ ∣ ) ∣ ∣ α P ∣ ∣ = ∇ f ( X ) T P = ∣ ∣ ∇ f ( X ) ∣ ∣ c o s ( ∇ f ( X ) , P ) \frac{d(f(X))}{d(P)}=\lim_{\alpha->0^+}\frac{f(X+\alpha P)-f(X)}{||\alpha P||}=\lim_{\alpha->0^+}\frac{∇f(X)^T(\alpha P)+o(||\alpha P||)}{||\alpha P||}=∇f(X)^TP=||∇f(X)||cos(∇f(X),P) d(P)d(f(X))=α>0+limαPf(X+αP)f(X)=α>0+limαPf(X)T(αP)+o(αP)=f(X)TP=f(X)cos(f(X),P)其中, ∇ f ( X ) , P ∇f(X),P f(X),P表示 ∇ f ( X ) ∇f(X) f(X) P P P的夹角。可见要使函数值下降最快,需要使得 c o s ( ∇ f ( X ) , P ) = − 1 cos(∇f(X),P)=-1 cos(f(X),P)=1,即 P = − β ∇ f ( X ) P=-\beta ∇f(X) P=βf(X)沿着负梯度的方向函数值下降得最快

4、Hesse矩阵

\quad 定义:函数 f ( X ) f(X) f(X)具有二阶连续偏导数,则对 f ( X ) f(X) f(X)求二阶偏导得到的矩阵是Hesse矩阵,一定是对称矩阵。
∇ 2 f ( X ) = ∂ 2 f ( X ) ∂ x 1 2 ∂ 2 f ( X ) ∂ x 2 ∂ x 1 ⋯ ∂ 2 f ( X ) ∂ x n ∂ x 1 ∂ 2 f ( X ) ∂ x 1 ∂ x 2 ∂ 2 f ( X ) ∂ x 2 2 ⋯ ∂ 2 f ( X ) ∂ x n ∂ x 2 ⋯ ⋯ ⋯ ⋯ ∂ 2 f ( X ) ∂ x 1 ∂ x n ∂ 2 f ( X ) ∂ x 2 x n ⋯ ∂ 2 f ( X ) ∂ x n 2 ∇^2f(X)=\begin{matrix} \frac{\partial^2 f(X)}{\partial x_1^2}& \frac{\partial^2 f(X)}{\partial x_2\partial x_1} & \cdots & \frac{\partial^2 f(X)}{\partial x_n\partial x_1} \\ \frac{\partial^2 f(X)}{\partial x_1\partial x_2} & \frac{\partial^2 f(X)}{\partial x_2^2} & \cdots & \frac{\partial^2 f(X)}{\partial x_n\partial x_2}\\\cdots & \cdots & \cdots & \cdots \\ \frac{\partial^2 f(X)}{\partial x_1\partial x_n} & \frac{\partial^2 f(X)}{\partial x_2x_n} & \cdots & \frac{\partial^2 f(X)}{\partial x_n^2} \end{matrix} 2f(X)=x122f(X)x1x22f(X)x1xn2f(X)x2x12f(X)x222f(X)x2xn2f(X)xnx12f(X)xnx22f(X)xn22f(X)

5、极小点与最优值

\quad 对于点 X ∗ X^* X邻域内任意点 X X X,都满足 f ( X ∗ ) ≤ f ( X ) f(X^*)\leq f(X) f(X)f(X),则 X ∗ X^* X f ( X ) f(X) f(X)的局部极小点, f ( X ∗ ) ≤ f ( X ) f(X^*)\le f(X) f(X)f(X),则 X ∗ X^* X f ( X ) f(X) f(X)的严格局部极小点。函数值 f ( X ∗ ) f(X^*) f(X)称为最优值。

6、驻点、极值点、鞍点和拐点

驻点:若 ∇ f ( X ∗ ) = 0 ∇f(X^*)=0 f(X)=0,则 X ∗ X^* X f ( X ∗ ) f(X^*) f(X)的驻点
极值点:若 ∇ f ( X ∗ ) = 0 ∇f(X^*)=0 f(X)=0,且 ∇ 2 f ( X ∗ ) ∇^2f(X^*) 2f(X)是正定矩阵,则 X ∗ X^* X f ( X ) f(X) f(X)的严格局部极小点(若 ∇ 2 f ( X ∗ ) ∇^2f(X^*) 2f(X)是半正定矩阵,其他条件不变,那么 X ∗ X^* X不一定是 f ( X ) f(X) f(X)的局部极小点,也可能是鞍点)
鞍点:是驻点而不是极值点的点统称为鞍点
拐点:函数凹凸性改变的变

7、凸集和凸函数

\quad 凸集:若集合D中任意两点连线仍在D中,则D为凸集
\quad 凸函数:设D是凸集,若对所有的 X 1 , X 2 ∈ D , α ∈ ( 0 , 1 ) X^1,X^2\in D,\alpha\in(0,1) X1,X2D,α(0,1),都有 f ( α X 1 + ( 1 − α ) X 2 ) ≤ α f ( X 1 ) + ( 1 − α ) f ( X 2 ) f(\alpha X^1+(1-\alpha)X^2)\leq \alpha f(X^1)+(1-\alpha)f(X^2) f(αX1+(1α)X2)αf(X1)+(1α)f(X2) f ( X ) f(X) f(X)为D上的凸函数。
\quad 凸函数充要条件:设D是凸集, f ( X ) f(X) f(X)在D上具有连续的二阶偏导数,则 f ( X ) f(X) f(X)在D上是凸函数的充要条件是 ∇ 2 f ( X ) ∇^2f(X) 2f(X)是半正定矩阵。

8、凸优化

  • 局部最优解为全局最优解
  • 最优解集为单点集
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值