最优化算法(1):数学基础

原文链接:最优化算法(1):数学基础 | 远行的舟

从某种程度上说,我们生活中遇到的许许多多的问题,都可以看成是一个最优化问题。例如着装打扮、选择饭店、租购房屋、旅行规划等等。如果我们能将这些问题转化为目前数学上可解的最优化模型,并且我们掌握了求解相关最优化模型的最优化算法,那么我们或许能够生活得更聪明,更舒适,也更幸福。将生活问题转化为数学模型并不容易,它或许需要敏锐的头脑,需要长期的积累,需要灵光的乍泄,但掌握求解相关最优化模型的算法则相对容易多了。

1947 年,Dantzig 提出求解一般线性规划问题的单纯形法后,最优化开始成为一门独立的学科。历经 70 多年的风雨,在电子计算机的推动下,最优化理论与算法如今已在经济计划、工程设计、生产管理、交通运输等诸多方面得到广泛应用,并已发展成为当今应用数学领域一门十分活跃的学科。

最优化问题的一般形式为:

min ⁡   f ( x )   s . t .    x ∈ X ⊆ R n \begin{aligned} &\min \ f\left ( \boldsymbol{x} \right ) \\ &\ \mathrm{s.t.} \ \ \boldsymbol{x} \in X \subseteq R^n \end{aligned} min f(x) s.t.  xXRn

其中 x x x决策变量 (decision variable), f ( x ) f\left(x \right) f(x)目标函数 (objective function), X X X约束集 (constraint set) 或可行域 (feasible region)。当 X = R n X = R^n X=Rn 时,称为无约束优化 (unconstrained optimization) 问题 ,否则称为约束优化 (constrained optimization) 问题。约束优化问题通常写为如下更具体的形式:

min ⁡   f ( x )   s . t .    c i ( x ) = 0 , i ∈ E   c i ( x ) ≥ 0 , i ∈ I \begin{aligned} &\min \ f\left ( \boldsymbol{x} \right ) \\ &\ \mathrm{s.t.} \ \ c_i\left(\boldsymbol{x}\right) = 0, i \in E \\ &\qquad \ c_i\left(\boldsymbol{x}\right) \geq 0, i \in I \end{aligned} min f(x) s.t.  ci(x)=0,iE ci(x)0,iI

c i ( x ) = 0 , i ∈ E c_i\left(\boldsymbol{x}\right) = 0, i \in E ci(x)=0,iE等式约束 (equality constraint), c i ( x ) ≥ 0 , i ∈ I c_i\left(\boldsymbol{x}\right) \geq 0, i \in I ci(x)0,iI不等式约束 (inequality constraint), c i ( x ) c_i\left(\boldsymbol{x}\right) ci(x)约束函数 (constraint function), E E E I I I 分别是等式约束的指标集和不等式约束的指标集。当目标函数与约束函数均为线性函数时,约束优化问题称为线性规划 (linear programming),否则称为非线性规划 (nonlinear programming)。

本章,我们将主要介绍一些数学基础知识,为后续系统学习最优化算法打下坚实的基础,此外,我们还会对最优化算法的基本结构做个简要描述。现在,就让我们放下对数学符号的恐惧,拿起笔和纸,一起在属于 x, y 和 z 的王国里开始遨游吧。学习从来都是痛苦的过程,只有那些不惧艰险、勇于攀登的人,才能最终品尝到属于他们的、独一无二的、最甜也最美的果实。

1.1 线性代数

本节,我们介绍最优化理论中需要用到的线性代数知识,包括:范数、矩阵的逆与广义逆、矩阵的 Rayleigh 商和矩阵的秩一校正。

1.1.1 范数

范数是长度概念的推广,向量、矩阵均有范数。 R n R^n Rn 上的向量范数 (vector norm) 是一个从 R n → R R^n \rightarrow R RnR 的映射 ∥ ⋅ ∥ \left \| \cdot \right \| ,它满足如下三个性质:

  • 非负性 (Positivity): ∥ x ∥ ≥ 0 ,   ∀   x ∈ R n ,   ∥ x ∥ = 0 ⇔ x = 0 \left \| \boldsymbol{x} \right \| \geq 0,\ \forall \ \boldsymbol{x} \in R^n,\ \left \| \boldsymbol{x} \right \| = 0 \Leftrightarrow \boldsymbol{x} = 0 x0,  xRn, x=0x=0
  • 齐次性 (Homogeneity): ∥ α x ∥ = ∣ α ∣ ∥ x ∥ ,   ∀ α ∈ R ,   x ∈ R n \left \| \alpha \boldsymbol{x} \right \| =\left | \alpha \right |\left \| \boldsymbol{x} \right \|,\ \forall \alpha \in R, \ \boldsymbol{x} \in R^n αx=αx, αR, xRn
  • 三角不等式 (Triangle inequality): ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ ,   ∀   x , y ∈ R n \left \| \boldsymbol{x}+\boldsymbol{y} \right \| \leq \left \| \boldsymbol{x} \right \|+\left \| \boldsymbol{y} \right \|,\ \forall \ \boldsymbol{x},\boldsymbol{y} \in R^n x+yx+y,  x,yRn

向量 x = ( x 1 , x 2 , ⋯   , x n ) ′ \boldsymbol{x} = \left(x_1,x_2,\cdots,x_n\right)' x=(x1,x2,,xn) l p l_p lp 范数定义为:

∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p ,   1 ≤ p &lt; ∞ \left \| \boldsymbol{x} \right \|_p = \left ( \sum_{i=1}^{n}\left | x_i \right |^p \right )^{\frac{1}{p}},\ 1 \leq p &lt; \infty xp=(i=1nxip)p1, 1p<

常用的向量范数如下所示:

  • l 1 l_1 l1 范数 ( l 1   &ThinSpace;&ThinSpace; n o r m ) \left ( l_1\ \,\,\mathrm{norm} \right ) (l1 norm):

    ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ \left \| \boldsymbol{x} \right \|_1 = \sum_{i=1}^{n}\left | x_i \right | x1=i=1nxi

  • l 2 l_2 l2 范数 ( l 2   &ThinSpace;&ThinSpace; n o r m ) \left ( l_2\ \,\,\mathrm{norm} \right ) (l2 norm):

    ∥ x ∥ 2 = ( ∑ i = 1 n x i 2 ) 1 2 \left \| \boldsymbol{x} \right \|_2 = \left (\sum_{i=1}^{n} x_i^2 \right )^{\frac{1}{2}} x2=(i=1nxi2)21

  • l ∞ l_\infty l 范数 ( l ∞   n o r m ) \left ( l_\infty\ \mathrm{norm} \right ) (l norm):

    ∥ x ∥ ∞ = max ⁡ 1 ≤ i ≤ n ∣ x i ∣ \left \| \boldsymbol{x} \right \|_\infty = \max_{1\leq i\leq n}\left | x_i \right | x=1inmaxxi

  • 椭球范数 ( e l l i p s o i d a l   n o r m ) \left(\mathrm{ellipsoidal} \ \mathrm{norm}\right) (ellipsoidal norm):

    ∥ x ∥ A = ( x T A x ) 1 2 , A T = A , A n × n &gt; 0 \left \| \boldsymbol{x} \right \|_{\boldsymbol{A}} = \left ( x^T\boldsymbol{A}x \right )^{\frac{1}{2}},\boldsymbol{A}^T=\boldsymbol{A},\boldsymbol{A}_{n\times n} &gt; 0 xA=(xTAx)21,AT=A,An×n>0

上述四个向量范数是等价的,这是因为它们满足如下四个不等式:

∥ x ∥ 2    ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ 2   ∥ x ∥ ∞   ≤ ∥ x ∥ 2 ≤ n ∥ x ∥ ∞   ∥ x ∥ ∞   ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ ∞   λ m i n ( A ) ∥ x ∥ 2    ≤ ∥ x ∥ A ≤ λ m a x ( A ) ∥ x ∥ 2 \left \| \boldsymbol{x} \right \|_2\ \ \leq \left \| \boldsymbol{x} \right \|_1 \leq \sqrt{n}\left \| \boldsymbol{x} \right \|_2 \\ \ \\ \left \| \boldsymbol{x} \right \|_\infty\ \leq \left \| \boldsymbol{x} \right \|_2 \leq \sqrt{n}\left \| \boldsymbol{x} \right \|_\infty \\ \ \\ \left \| \boldsymbol{x} \right \|_\infty\ \leq \left \| \boldsymbol{x} \right \|_1 \leq n\left \| \boldsymbol{x} \right \|_\infty \\ \ \\ \sqrt{\lambda_{\mathrm{min}}\left ( \boldsymbol{A} \right )}\left \| \boldsymbol{x} \right \|_2\ \ \leq \left \| \boldsymbol{x} \right \|_{\boldsymbol{A}} \leq \sqrt{\lambda_{\mathrm{max}}\left ( \boldsymbol{A} \right )}\left \| \boldsymbol{x} \right \|_2 x2  x1n x2 x x2n x x x1nx λmin(A) x2  xAλmax(A) x2

其中 λ m a x ( A ) \lambda_{\mathrm{max}} \left ( \boldsymbol{A} \right ) λmax(A) 为矩阵 A \boldsymbol{A} A 的最大特征值, λ m i n ( A ) \lambda_{\mathrm{min}} \left ( \boldsymbol{A} \right ) λmin(A) 为矩阵 A \boldsymbol{A} A 的最小特征值。

等价范数:如果 ∃ μ 1 ,   μ 2 &gt; 0 \exists \mu_1,\ \mu_2&gt;0 μ1, μ2>0 使得 R n R^n Rn 上的范数 ∥ ⋅ ∥ α \left \| \cdot \right \|_\alpha α ∥ ⋅ ∥ β \left \| \cdot \right \|_\beta β 满足: μ 1 ∥ x ∥ α ≤ ∥ x ∥ β ≤ μ 2 ∥ x ∥ α \mu_1\left \| \boldsymbol{x} \right \|_\alpha \leq \left \| \boldsymbol{x} \right \|_\beta \leq \mu_2\left \| \boldsymbol{x} \right \|_\alpha μ1xαxβμ2xα ∀   x ∈ R n \forall \ \boldsymbol{x}\in R^n  xRn,则我们称 R n R^n Rn 上的范数 ∥ ⋅ ∥ α \left \| \cdot \right \|_\alpha α ∥ ⋅ ∥ β \left \| \cdot \right \|_\beta β 是等价的。

此外,关于向量范数,还有几个重要的不等式:

  • ∣ x T A y ∣ ≤ ∥ x ∥ A ∥ y ∥ A , A n × n &gt; 0 ;   ∣ x T A y ∣ = ∥ x ∥ A ∥ y ∥ A ⇔ x = c y , c ≠ 0 \left | \boldsymbol{x}^T\boldsymbol{A}\boldsymbol{y} \right |\leq\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}},\boldsymbol{A}_{n\times n}&gt;0;\ \left | \boldsymbol{x}^T\boldsymbol{A}\boldsymbol{y} \right |=\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}} \Leftrightarrow \boldsymbol{x}=c\boldsymbol{y},c\neq 0 xTAyxAyA,An×n>0; xTAy=xAyAx=cy,c̸=0待证明
  • ∣ x T y ∣ ≤ ∥ x ∥ A ∥ y ∥ A − 1 , A n × n &gt; 0 ;   ∣ x T y ∣ = ∥ x ∥ A ∥ y ∥ A − 1 ⇔ x = c A − 1 y , c ≠ 0 \left | \boldsymbol{x}^T \boldsymbol{y} \right |\leq\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}^{-1}},\boldsymbol{A}_{n\times n}&gt;0;\ \left | \boldsymbol{x}^T\boldsymbol{y} \right |=\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A^{-1}}} \Leftrightarrow \boldsymbol{x}=c\boldsymbol{A^{-1}y},c\neq 0 xTyxAyA1,An×n>0; xTy=xAyA1x=cA1y,c̸=0待证明
  • Young 不等式
    x y ≤ x p p + y q q ,   x , y ≥ 0 ,   1 p + 1 q = 1 ,   p , q &gt; 1 ;   x y = x p p + y q q ⇔ x p = y q xy \leq \frac{x^p}{p}+\frac{y^q}{q},\ x,y \geq 0,\ \frac{1}{p}+\frac{1}{q}=1,\ p,q&gt;1;\ xy = \frac{x^p}{p}+\frac{y^q}{q}\Leftrightarrow x^p=y^q xypxp+qyq, x,y0, p1+q1=1, p,q>1; xy=pxp+qyqxp=yq

证明:当 x = 0 x = 0 x=0 y = 0 y = 0 y=0 时,显然成立;当 x , y &gt; 0 x,y &gt; 0 x,y>0 时,令 t = 1 p t = \frac{1}{p} t=p1 1 − t = 1 q 1-t = \frac{1}{q} 1t=q1 a = x p a = x^p a=xp b = y q b = y^q b=yq,因为 ln ⁡ ( x ) \ln \left(x \right) ln(x) 是一个凹函数,所以 ln ⁡ [ t a + ( 1 − t ) b ] ≥ t ln ⁡ a + ( 1 − t ) ln ⁡ b \ln \left[ta + \left(1-t \right)b \right] \geq t\ln a + \left(1-t \right)\ln b ln[ta+(1t)b]tlna+(1t)lnb,代入 t ,   1 − t ,   a ,   b t,\ 1-t,\ a,\ b t, 1t, a, b,然后两边同取指数运算,即得上式。

  • Holder 不等式(特例:Cauchy-Schwarz 不等式):
    ∣ x T y ∣ ≤ ∥ x ∥ p ∥ y ∥ q ,   1 p + 1 q = 1 ,   p , q &gt; 1 \left | \boldsymbol{x}^T \boldsymbol{y} \right |\leq \left \| \boldsymbol{x} \right \|_p\left \| \boldsymbol{y} \right \|_q,\ \frac{1}{p}+\frac{1}{q}=1,\ p,q&gt;1 xTyxpyq, p1+q1=1, p,q>1

证明:由 Young 不等式有

∣ x i y i ∣ ∥ x ∥ p ∥ y ∥ q ≤ 1 p ( ∣ x i ∣ ∥ x ∥ p ) p + 1 q ( ∣ x i ∣ ∥ x ∥ q ) q \frac{\left | x_iy_i \right |}{\left \| x \right \|_p\left \| y \right \|_q} \leq \frac{1}{p}\left ( \frac{\left | x_i \right |}{\left \| x \right \|_p} \right )^p + \frac{1}{q}\left ( \frac{\left | x_i \right |}{\left \| x \right \|_q} \right )^q xpyqxiyip1(xpxi)p+q1(xqxi)q
上述不等式两边关于 i i i 求和得

1 ∥ x ∥ p ∥ y ∥ q ∑ i = 1 n ∣ x i y i ∣ ≤ 1 p ∥ x ∥ p p ∑ i = 1 n ∣ x i ∣ p + 1 q ∥ y ∥ q q ∑ i = 1 n ∣ y i ∣ q = 1 p + 1 q = 1 \frac{1}{\left \| x \right \|_p\left \| y \right \|_q}\sum_{i=1}^{n}\left | x_iy_i \right | \leq \frac{1}{p\left \| x \right \|_p^p}\sum_{i=1}^{n}\left | x_i \right |^p + \frac{1}{q\left \| y \right \|_q^q}\sum_{i=1}^{n}\left | y_i \right |^q = \frac{1}{p} + \frac{1}{q} = 1 xpyq1i=1nxiyipxpp1i=1nxip+qyqq1i=1nyiq=p1+q1=1
两边同乘 ∥ x ∥ p ∥ y ∥ q \left \| x \right \|_p\left \| y \right \|_q xpyq 即得结果。

  • Minkowski 不等式(范数定义中的第 3 条性质):
    ∥ x + y ∥ p ≤ ∥ x ∥ p + ∥ y ∥ p ,   p ≥ 1 \left \| \boldsymbol{x}+\boldsymbol{y} \right \|_p\leq \left \| \boldsymbol{x} \right \|_p+\left \| \boldsymbol{y} \right \|_p,\ p \geq 1 x+ypxp+yp, p1

证明:当 x = 0 x = 0 x=0 y = 0 y = 0 y=0 时,显然成立;当 x , y &gt; 0 x,y &gt; 0 x,y>0 时,令 t = ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p t = \frac{\left \| x \right \|_p}{\left \| x \right \|_p + \left \| y \right \|_p} t=xp+ypxp 1 − t = ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p 1-t = \frac{\left \| y \right \|_p}{\left \| x \right \|_p + \left \| y \right \|_p} 1t=xp+ypyp a = ∣ x i ∣ ∥ x ∥ p a = \frac{\left | x_i \right |}{\left \| x \right \|_p} a=xpxi b = ∣ y i ∣ ∥ y ∥ p b = \frac{\left | y_i \right |}{\left \| y \right \|_p} b=ypyi。因为 x p ,   x &gt; 0 x^p,\ x&gt;0 xp, x>0 是凸函数,所以有 [ t a + ( 1 − t ) b ] p ≤ t a p + ( 1 − t ) b p \left[ta + \left(1-t \right)b \right]^p \leq t a^p + \left(1-t \right) b^p [ta+(1t)b]ptap+(1t)bp,代入 t ,   1 − t ,   a ,   b t,\ 1-t,\ a,\ b t, 1t, a, b,然后两边同时对 i i i 求和,可得

∑ i = 1 n ( ∣ x i ∣ + ∣ y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ 1 \sum_{i=1}^{n}\left ( \frac{\left | x_i \right |+\left | y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq 1 i=1n(xp+ypxi+yi)p1
所以

∑ i = 1 n ( ∣ x i + y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ ∑ i = 1 n ( ∣ x i ∣ + ∣ y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ 1 \sum_{i=1}^{n}\left ( \frac{\left | x_i + y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq \sum_{i=1}^{n}\left ( \frac{\left | x_i \right |+\left | y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq 1 i=1n(xp+ypxi+yi)pi=1n(xp+ypxi+yi)p1
不等号两边同取 p p p 次根,然后经恒等变换即得结果。

矩阵范数是向量范数的自然推广, R m × n R^{m\times n} Rm×n 上的矩阵可视为 R m n R^{mn} Rmn 中的向量。 R m × n R^{m\times n} Rm×n 上的矩阵范数 (matrix norm) 是一个从 R m n → R R^{mn} \rightarrow R RmnR 的映射 ∥ ⋅ ∥ \left \| \cdot \right \| ,它满足如下三个性质:

  • 非负性: ∥ A ∥ ≥ 0 ,   ∀   A ∈ R m × n ,   ∥ A ∥ = 0 ⇔ A = O \left \| \boldsymbol{A} \right \| \geq 0,\ \forall \ \boldsymbol{A} \in R^{m\times n},\ \left \| \boldsymbol{A} \right \| = 0 \Leftrightarrow \boldsymbol{A} = \boldsymbol{O} A0,  ARm×n, A=0A=O O \boldsymbol{O} O 为一个零矩阵
  • 齐次性: ∥ α A ∥ = ∣ α ∣ ∥ A ∥ ,   ∀ α ∈ R ,   A ∈ R m × n \left \| \alpha \boldsymbol{A} \right \| =\left | \alpha \right |\left \| \boldsymbol{A} \right \|,\ \forall \alpha \in R, \ \boldsymbol{A} \in R^{m\times n} αA=αA, αR, ARm×n
  • 三角不等式: ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ ,   ∀   A , B ∈ R m × n \left \| \boldsymbol{A}+\boldsymbol{B} \right \| \leq \left \| \boldsymbol{A} \right \|+\left \| \boldsymbol{B} \right \|,\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{m\times n} A+BA+B,  A,BRm×n

如果 ∀ A ∈ R m × n ,   x ∈ R n \forall \boldsymbol{A} \in R^{m\times n},\ \boldsymbol{x} \in R^n ARm×n, xRn 有:

∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ \left \| \boldsymbol{Ax} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{x} \right \| AxAx

我们称该矩阵范数可由向量范数导出,或与向量范数兼容,诱导 (矩阵) 范数(induced norm)因此定义为(为什么 ∥ A − 1 ∥ = 1 / min ⁡ ∥ x ∥ = 1 ∥ A x ∥ \begin{aligned}\left \| \boldsymbol{A^{-1}} \right \| =1/ \min_{\left \| \boldsymbol{x} \right \|=1}\left \| \boldsymbol{Ax} \right \|\end{aligned} A1=1/x=1minAx):

∥ A ∥ = max ⁡ x ≠ 0 ∥ A x ∥ ∥ x ∥ = max ⁡ ∥ x ∥ = 1 ∥ A x ∥ \left \| \boldsymbol{A} \right \| =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|}{ \left \| \boldsymbol{x} \right \|} = \max_{\left \| \boldsymbol{x} \right \|=1}\left \| \boldsymbol{Ax} \right \| A=x̸=0maxxAx=x=1maxAx

显然,上式给出的诱导范数的定义满足条件 ∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ \left \| \boldsymbol{Ax} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{x} \right \| AxAx,但要保证上式定义的合理性, f ( x ) = ∥ A x ∥ f\left( \boldsymbol{x} \right) = \left \| \boldsymbol{Ax} \right \| f(x)=Ax D = { x ∈ R n : ∥ x ∥ = 1 } D = \left \{\boldsymbol{x} \in R^n: \left \| \boldsymbol{x} \right \| = 1 \right \} D={ xRn:x=1} 上必须存在最大值。根据向量范数的连续性,以及有界闭集上的连续函数必有最大最小值的定理,我们可以知道上述定义是合理的。

如果对 n × n n\times n n×n 正交矩阵 U \boldsymbol{U} U ∥ U A ∥ = ∥ A ∥ \left \| \boldsymbol{UA} \right \| = \left \| \boldsymbol{A} \right \| UA=A,则称 ∥ ⋅ ∥ \left \| \cdot \right \| 正交不变范数。常用的矩阵范数如下所示:

  • l 1 l_1 l1 诱导范数 / 列和范数 ( l 1   i n d u c e d   n o r m ) \left ( l_1\ \mathrm{induced\ norm} \right ) (l1 induced norm):

    ∥ A ∥ 1 = max ⁡ j ∥ a j ∥ 1 = max ⁡ j ∑ i = 1 n ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_1 = \max_{j}\left \| \boldsymbol{a}_{j} \right \|_1 = \max_{j}\sum_{i=1}^{n}\left | a_{ij} \right | A1=jmaxaj1=jmaxi=1naij

  • l 2 l_2 l2 诱导范数 / 谱范数 ( l 2   i n d u c e d   n o r m   /   s p e c t r a l   n o r m ) \left ( l_2\ \mathrm{induced\ norm \ / \ spectral \ norm} \right ) (l2 induced norm / spectral norm):

    ∥ A ∥ 2 = λ m a x ( A T A ) \left \| \boldsymbol{A} \right \|_2 = \sqrt{\lambda_{\mathrm{max}} \left ( \boldsymbol{A}^T\boldsymbol{A} \right )} A2=λmax(ATA)

  • l ∞ l_\infty l 诱导范数 / 行和范数 ( l ∞   i n d u c e d   n o r m ) \left ( l_\infty\ \mathrm{induced\ norm} \right ) (l induced norm):

    ∥ A ∥ ∞ = max ⁡ i ∥ a i ∥ 1 = max ⁡ i ∑ j = 1 n ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_\infty = \max_{i}\left \| \boldsymbol{a}_{i} \right \|_1 = \max_{i}\sum_{j=1}^{n}\left | a_{ij} \right | A=imaxai1=imaxj=1naij

  • Frobenius 范数 ( F r o b e n i u s   n o r m ) \left (\mathrm{Frobenius\ norm} \right ) (Frobenius norm):

    ∥ A ∥ F = ( ∑ i = 1 n ∑ j = 1 n ∣ a i j ∣ 2 ) 1 2 = t r ( A T A ) \left \| \boldsymbol{A} \right \|_F = \left ( \sum_{i=1}^{n}\sum_{j=1}^{n}\left | a_{ij} \right |^2 \right )^{\frac{1}{2}} = \sqrt{\mathrm{tr}\left ( \boldsymbol{A}^T\boldsymbol{A} \right )} AF=(i=1nj=1naij2)21=tr(ATA)

  • 这里 a j \boldsymbol{a}_{j} aj 为矩阵 A \boldsymbol{A} A 的第 j j j 列构成的向量, a i \boldsymbol{a}_{i} ai 为矩阵 A \boldsymbol{A} A 的第 i i i 行构成的向量, λ m a x ( A T A ) \lambda_{\mathrm{max}} \left ( \boldsymbol{A}^T\boldsymbol{A} \right ) λmax(ATA) 为矩阵 A T A \boldsymbol{A}^T\boldsymbol{A} ATA 的最大特征值, t r ( A T A ) \mathrm{tr}\left ( \boldsymbol{A}^T\boldsymbol{A} \right ) tr(ATA) 为矩阵 A T A \boldsymbol{A}^T\boldsymbol{A} ATA 的迹(主对角线上元素的和)

上述常用矩阵范数中,谱范数和 Frobenius 范数为正交不变范数。此外,上述常用矩阵范数均满足相容性条件

∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ ,   ∀   A , B ∈ R n × n \left \| \boldsymbol{AB} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{B} \right \|,\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{n\times n} ABAB,  A,BRn×n

且有(为什么成立):

∥ A B ∥ F ≤ min ⁡ { ∥ A ∥ 2 ∥ B ∥ F , ∥ A ∥ F ∥ B ∥ 2 } ,   ∀   A , B ∈ R n × n \left \| \boldsymbol{AB} \right \|_F \leq \min \left \{ \left \| \boldsymbol{A} \right \|_2 \left \| \boldsymbol{B} \right \|_F,\left \| \boldsymbol{A} \right \|_F \left \| \boldsymbol{B} \right \|_2 \right \},\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{n\times n} ABFmin{ A2BF,AFB2},  A,BRn×n

在本节最后,我们给出 l 1 l_1 l1 诱导范数、 l 2 l_2 l2 诱导范数和 l ∞ l_\infty l 诱导范数的证明过程

l 1 l_1 l1 诱导范数的证明如下:

∵   ∥ A x ∥ 1 = ∑ i = 1 m ∣ ∑ j = 1 n a i j x j ∣ ≤ ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ ∣ x j ∣ = ∑ j = 1 n ∑ i = 1 m ∣ a i j ∣ ∣ x j ∣ ≤ ( max ⁡ j ∑ i = 1 m ∣ a i j ∣ ) ∑ j = 1 n ∣ x j ∣ = max ⁡ j ∑ i = 1 m ∣ a i j ∣ ∥ x ∥ 1 ∴   ∥ A ∥ 1 = max ⁡ x ≠ 0 ∥ A x ∥ 1 ∥ x ∥ 1 = max ⁡ ∥ x ∥ 1 = 1 ∥ A x ∥ 1 ≤ max ⁡ j ∑ i = 1 m ∣ a i j ∣ ⋯ ( 1 ) \begin{aligned} &amp;\because \ \left \| \boldsymbol{Ax} \right \|_1=\sum_{i=1}^{m}\left | \sum_{j=1}^{n}a_{ij}x_j \right | \leq \sum_{i=1}^{m}\sum_{j=1}^{n}\left | a_{ij} \right |\left | x_j \right |= \sum_{j=1}^{n}\sum_{i=1}^{m}\left | a_{ij} \right |\left | x_j \right | \\ &amp;\leq \left ( \max_j \sum_{i=1}^{m}\left | a_{ij} \right | \right )\sum_{j=1}^{n}\left | x_j \right |=\max_j \sum_{i=1}^{m}\left | a_{ij} \right |\left \| \boldsymbol{x} \right \|_1 \end{aligned} \\ \therefore \ \left \| \boldsymbol{A} \right \|_1 =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|_1}{ \left \| \boldsymbol{x} \right \|_1} = \max_{\left \| \boldsymbol{x} \right \|_1=1}\left \| \boldsymbol{Ax} \right \|_1 \leq \max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | \qquad \cdots \left(1\right)  Ax1=i=1mj=1naijxji=1mj=1naijxj=j=1ni=1maijxj(jmaxi=1maij)j=1nxj=jmaxi=1maijx1 A1=x̸=0maxx1Ax1=x1=1maxAx1jmaxi=1maij(1)
x ( j ) = ( 0 , ⋯ &ThinSpace; , 1 , ⋯ &ThinSpace; , 0 ) ,   j = 1 , 2 , ⋯ &ThinSpace; , n \boldsymbol{x^{(j)}}=(0,\cdots,1,\cdots,0),\ j=1,2,\cdots,n x(j)=(0,,1,,0), j=1,2,,n,它是除第 j j j 个元素为 1 1 1、其余元素全为 0 0 0 的向量,则有

∥ A ∥ 1 = max ⁡ x ≠ 0 ∥ A x ∥ 1 ∥ x ∥ 1 = max ⁡ ∥ x ∥ 1 = 1 ∥ A x ∥ 1 ≥ max ⁡ x ( j ) ∥ A x ∥ 1 = max ⁡ j ∑ i = 1 m ∣ a i j ∣ ⋯ ( 2 ) \left \| \boldsymbol{A} \right \|_1 =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|_1}{ \left \| \boldsymbol{x} \right \|_1} = \max_{\left \| \boldsymbol{x} \right \|_1=1}\left \| \boldsymbol{Ax} \right \|_1 \geq \max_{\boldsymbol{x}^{(j)}}\left \| \boldsymbol{Ax} \right \|_1=\max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | \qquad \cdots \left(2\right) A1=x̸=0maxx1Ax1=x1=1maxAx1x(j)maxAx1=jmaxi=1maij(2)
( 1 ) \left(1 \right) (1) ( 2 ) \left(2 \right) (2) 两式知

∥ A ∥ 1 = max ⁡ j ∑ i = 1 m ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_1 =\max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | A1=jmaxi=1maij

l 2 l_2 l2 诱导范数的证明如下:

x 1 , x 2 , ⋯ &ThinSpace; , x n \boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_n x1,x2,,xn 为对称半正定矩阵 A T A A^TA ATA 的与特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ n \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n λ1λ2λn 相对应的相互正交的特征向量,则 ∀   x = 1 \forall \ \boldsymbol{x} = 1  x=1 的向量 x \boldsymbol{x} x,必存在满足条件 c 1 2 + c 2 2 + ⋯ + c n 2 = 1 c_1^2+c_2^2+\cdots+c_n^2=1 c12+c22++cn2=1 c 1 , c 2 , ⋯ &ThinSpace; , c n c_1,c_2,\cdots,c_n c1,c2,,cn 使得 x = c 1 x 1 + c 2 x 2 + ⋯ + c n x n \boldsymbol{x}=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n x=c1x1+c2x2++cnxn。所以有:

  ∥ A x ∥ 2 2 = ( A x ) T A x = x T A T A x = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T A T A ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T ( c 1 A T A x 1 + c 2 A T A x 2 + ⋯ + c n A T A x n ) = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T ( c 1 λ 1 x 1 + c 2 λ 2 x 2 + ⋯ + c n λ n x n ) = ( c 1 x 1 T + c 2 x 2 T + ⋯ + c n x n T ) ( c 1 λ 1 x 1 + c 2 λ 2 x 2 + ⋯ + c n λ n x n ) = ∑ i = 1 n ∑ j = 1 n λ i λ j c i c j x i T x j = ∑ i = 1 n λ i c i 2 ≤ λ 1 ∑ i = 1 n c i 2 = λ 1 ⋯ ( 3 ) \begin{aligned} &amp;\ \left \| \boldsymbol{Ax} \right \|_2^2 = \left ( \boldsymbol{Ax} \right )^T \boldsymbol{Ax} = \boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x} \\ &amp;= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\boldsymbol{A}^T\boldsymbol{A}\left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right ) \\ &amp;= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\left ( c_1\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_1+c_2\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_2+\cdots+c_n\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_n \right ) \\ &amp;= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\left ( c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_n\lambda_n\boldsymbol{x}_n \right )\\ &amp;= \left ( c_1\boldsymbol{x}_1^T+c_2\boldsymbol{x}_2^T+\cdots+c_n\boldsymbol{x}_n^T \right )\left ( c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_n\lambda_n\boldsymbol{x}_n \right ) \\ &amp;= \sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_j c_ic_j \boldsymbol{x}_i^T\boldsymbol{x}_j = \sum_{i=1}^n \lambda_i c_i^2 \\ &amp;\leq \lambda_1 \sum_{i=1}^n c_i^2 = \lambda_1 \qquad \cdots \left(3\right) \end{aligned}

  • 4
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值