原文链接:最优化算法(1):数学基础 | 远行的舟
从某种程度上说,我们生活中遇到的许许多多的问题,都可以看成是一个最优化问题。例如着装打扮、选择饭店、租购房屋、旅行规划等等。如果我们能将这些问题转化为目前数学上可解的最优化模型,并且我们掌握了求解相关最优化模型的最优化算法,那么我们或许能够生活得更聪明,更舒适,也更幸福。将生活问题转化为数学模型并不容易,它或许需要敏锐的头脑,需要长期的积累,需要灵光的乍泄,但掌握求解相关最优化模型的算法则相对容易多了。
1947 年,Dantzig 提出求解一般线性规划问题的单纯形法后,最优化开始成为一门独立的学科。历经 70 多年的风雨,在电子计算机的推动下,最优化理论与算法如今已在经济计划、工程设计、生产管理、交通运输等诸多方面得到广泛应用,并已发展成为当今应用数学领域一门十分活跃的学科。
最优化问题的一般形式为:
min f ( x ) s . t . x ∈ X ⊆ R n \begin{aligned} &\min \ f\left ( \boldsymbol{x} \right ) \\ &\ \mathrm{s.t.} \ \ \boldsymbol{x} \in X \subseteq R^n \end{aligned} min f(x) s.t. x∈X⊆Rn
其中 x x x 为决策变量 (decision variable), f ( x ) f\left(x \right) f(x) 为目标函数 (objective function), X X X 为约束集 (constraint set) 或可行域 (feasible region)。当 X = R n X = R^n X=Rn 时,称为无约束优化 (unconstrained optimization) 问题 ,否则称为约束优化 (constrained optimization) 问题。约束优化问题通常写为如下更具体的形式:
min f ( x ) s . t . c i ( x ) = 0 , i ∈ E c i ( x ) ≥ 0 , i ∈ I \begin{aligned} &\min \ f\left ( \boldsymbol{x} \right ) \\ &\ \mathrm{s.t.} \ \ c_i\left(\boldsymbol{x}\right) = 0, i \in E \\ &\qquad \ c_i\left(\boldsymbol{x}\right) \geq 0, i \in I \end{aligned} min f(x) s.t. ci(x)=0,i∈E ci(x)≥0,i∈I
c i ( x ) = 0 , i ∈ E c_i\left(\boldsymbol{x}\right) = 0, i \in E ci(x)=0,i∈E 为等式约束 (equality constraint), c i ( x ) ≥ 0 , i ∈ I c_i\left(\boldsymbol{x}\right) \geq 0, i \in I ci(x)≥0,i∈I 为不等式约束 (inequality constraint), c i ( x ) c_i\left(\boldsymbol{x}\right) ci(x) 为约束函数 (constraint function), E E E 和 I I I 分别是等式约束的指标集和不等式约束的指标集。当目标函数与约束函数均为线性函数时,约束优化问题称为线性规划 (linear programming),否则称为非线性规划 (nonlinear programming)。
本章,我们将主要介绍一些数学基础知识,为后续系统学习最优化算法打下坚实的基础,此外,我们还会对最优化算法的基本结构做个简要描述。现在,就让我们放下对数学符号的恐惧,拿起笔和纸,一起在属于 x, y 和 z 的王国里开始遨游吧。学习从来都是痛苦的过程,只有那些不惧艰险、勇于攀登的人,才能最终品尝到属于他们的、独一无二的、最甜也最美的果实。
1.1 线性代数
本节,我们介绍最优化理论中需要用到的线性代数知识,包括:范数、矩阵的逆与广义逆、矩阵的 Rayleigh 商和矩阵的秩一校正。
1.1.1 范数
范数是长度概念的推广,向量、矩阵均有范数。 R n R^n Rn 上的向量范数 (vector norm) 是一个从 R n → R R^n \rightarrow R Rn→R 的映射 ∥ ⋅ ∥ \left \| \cdot \right \| ∥⋅∥,它满足如下三个性质:
- 非负性 (Positivity): ∥ x ∥ ≥ 0 , ∀ x ∈ R n , ∥ x ∥ = 0 ⇔ x = 0 \left \| \boldsymbol{x} \right \| \geq 0,\ \forall \ \boldsymbol{x} \in R^n,\ \left \| \boldsymbol{x} \right \| = 0 \Leftrightarrow \boldsymbol{x} = 0 ∥x∥≥0, ∀ x∈Rn, ∥x∥=0⇔x=0
- 齐次性 (Homogeneity): ∥ α x ∥ = ∣ α ∣ ∥ x ∥ , ∀ α ∈ R , x ∈ R n \left \| \alpha \boldsymbol{x} \right \| =\left | \alpha \right |\left \| \boldsymbol{x} \right \|,\ \forall \alpha \in R, \ \boldsymbol{x} \in R^n ∥αx∥=∣α∣∥x∥, ∀α∈R, x∈Rn
- 三角不等式 (Triangle inequality): ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ , ∀ x , y ∈ R n \left \| \boldsymbol{x}+\boldsymbol{y} \right \| \leq \left \| \boldsymbol{x} \right \|+\left \| \boldsymbol{y} \right \|,\ \forall \ \boldsymbol{x},\boldsymbol{y} \in R^n ∥x+y∥≤∥x∥+∥y∥, ∀ x,y∈Rn
向量 x = ( x 1 , x 2 , ⋯   , x n ) ′ \boldsymbol{x} = \left(x_1,x_2,\cdots,x_n\right)' x=(x1,x2,⋯,xn)′ 的 l p l_p lp 范数定义为:
∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 p , 1 ≤ p < ∞ \left \| \boldsymbol{x} \right \|_p = \left ( \sum_{i=1}^{n}\left | x_i \right |^p \right )^{\frac{1}{p}},\ 1 \leq p < \infty ∥x∥p=(i=1∑n∣xi∣p)p1, 1≤p<∞
常用的向量范数如下所示:
-
l 1 l_1 l1 范数 ( l 1    n o r m ) \left ( l_1\ \,\,\mathrm{norm} \right ) (l1 norm):
∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ \left \| \boldsymbol{x} \right \|_1 = \sum_{i=1}^{n}\left | x_i \right | ∥x∥1=i=1∑n∣xi∣
-
l 2 l_2 l2 范数 ( l 2    n o r m ) \left ( l_2\ \,\,\mathrm{norm} \right ) (l2 norm):
∥ x ∥ 2 = ( ∑ i = 1 n x i 2 ) 1 2 \left \| \boldsymbol{x} \right \|_2 = \left (\sum_{i=1}^{n} x_i^2 \right )^{\frac{1}{2}} ∥x∥2=(i=1∑nxi2)21
-
l ∞ l_\infty l∞ 范数 ( l ∞ n o r m ) \left ( l_\infty\ \mathrm{norm} \right ) (l∞ norm):
∥ x ∥ ∞ = max 1 ≤ i ≤ n ∣ x i ∣ \left \| \boldsymbol{x} \right \|_\infty = \max_{1\leq i\leq n}\left | x_i \right | ∥x∥∞=1≤i≤nmax∣xi∣
-
椭球范数 ( e l l i p s o i d a l n o r m ) \left(\mathrm{ellipsoidal} \ \mathrm{norm}\right) (ellipsoidal norm):
∥ x ∥ A = ( x T A x ) 1 2 , A T = A , A n × n > 0 \left \| \boldsymbol{x} \right \|_{\boldsymbol{A}} = \left ( x^T\boldsymbol{A}x \right )^{\frac{1}{2}},\boldsymbol{A}^T=\boldsymbol{A},\boldsymbol{A}_{n\times n} > 0 ∥x∥A=(xTAx)21,AT=A,An×n>0
上述四个向量范数是等价的,这是因为它们满足如下四个不等式:
∥ x ∥ 2 ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ 2 ∥ x ∥ ∞ ≤ ∥ x ∥ 2 ≤ n ∥ x ∥ ∞ ∥ x ∥ ∞ ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ ∞ λ m i n ( A ) ∥ x ∥ 2 ≤ ∥ x ∥ A ≤ λ m a x ( A ) ∥ x ∥ 2 \left \| \boldsymbol{x} \right \|_2\ \ \leq \left \| \boldsymbol{x} \right \|_1 \leq \sqrt{n}\left \| \boldsymbol{x} \right \|_2 \\ \ \\ \left \| \boldsymbol{x} \right \|_\infty\ \leq \left \| \boldsymbol{x} \right \|_2 \leq \sqrt{n}\left \| \boldsymbol{x} \right \|_\infty \\ \ \\ \left \| \boldsymbol{x} \right \|_\infty\ \leq \left \| \boldsymbol{x} \right \|_1 \leq n\left \| \boldsymbol{x} \right \|_\infty \\ \ \\ \sqrt{\lambda_{\mathrm{min}}\left ( \boldsymbol{A} \right )}\left \| \boldsymbol{x} \right \|_2\ \ \leq \left \| \boldsymbol{x} \right \|_{\boldsymbol{A}} \leq \sqrt{\lambda_{\mathrm{max}}\left ( \boldsymbol{A} \right )}\left \| \boldsymbol{x} \right \|_2 ∥x∥2 ≤∥x∥1≤n∥x∥2 ∥x∥∞ ≤∥x∥2≤n∥x∥∞ ∥x∥∞ ≤∥x∥1≤n∥x∥∞ λmin(A)∥x∥2 ≤∥x∥A≤λmax(A)∥x∥2
其中 λ m a x ( A ) \lambda_{\mathrm{max}} \left ( \boldsymbol{A} \right ) λmax(A) 为矩阵 A \boldsymbol{A} A 的最大特征值, λ m i n ( A ) \lambda_{\mathrm{min}} \left ( \boldsymbol{A} \right ) λmin(A) 为矩阵 A \boldsymbol{A} A 的最小特征值。
等价范数:如果 ∃ μ 1 , μ 2 > 0 \exists \mu_1,\ \mu_2>0 ∃μ1, μ2>0 使得 R n R^n Rn 上的范数 ∥ ⋅ ∥ α \left \| \cdot \right \|_\alpha ∥⋅∥α 和 ∥ ⋅ ∥ β \left \| \cdot \right \|_\beta ∥⋅∥β 满足: μ 1 ∥ x ∥ α ≤ ∥ x ∥ β ≤ μ 2 ∥ x ∥ α \mu_1\left \| \boldsymbol{x} \right \|_\alpha \leq \left \| \boldsymbol{x} \right \|_\beta \leq \mu_2\left \| \boldsymbol{x} \right \|_\alpha μ1∥x∥α≤∥x∥β≤μ2∥x∥α, ∀ x ∈ R n \forall \ \boldsymbol{x}\in R^n ∀ x∈Rn,则我们称 R n R^n Rn 上的范数 ∥ ⋅ ∥ α \left \| \cdot \right \|_\alpha ∥⋅∥α 和 ∥ ⋅ ∥ β \left \| \cdot \right \|_\beta ∥⋅∥β 是等价的。
此外,关于向量范数,还有几个重要的不等式:
- ∣ x T A y ∣ ≤ ∥ x ∥ A ∥ y ∥ A , A n × n > 0 ; ∣ x T A y ∣ = ∥ x ∥ A ∥ y ∥ A ⇔ x = c y , c ≠ 0 \left | \boldsymbol{x}^T\boldsymbol{A}\boldsymbol{y} \right |\leq\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}},\boldsymbol{A}_{n\times n}>0;\ \left | \boldsymbol{x}^T\boldsymbol{A}\boldsymbol{y} \right |=\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}} \Leftrightarrow \boldsymbol{x}=c\boldsymbol{y},c\neq 0 ∣∣xTAy∣∣≤∥x∥A∥y∥A,An×n>0; ∣∣xTAy∣∣=∥x∥A∥y∥A⇔x=cy,c̸=0(待证明)
- ∣ x T y ∣ ≤ ∥ x ∥ A ∥ y ∥ A − 1 , A n × n > 0 ; ∣ x T y ∣ = ∥ x ∥ A ∥ y ∥ A − 1 ⇔ x = c A − 1 y , c ≠ 0 \left | \boldsymbol{x}^T \boldsymbol{y} \right |\leq\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A}^{-1}},\boldsymbol{A}_{n\times n}>0;\ \left | \boldsymbol{x}^T\boldsymbol{y} \right |=\left \| \boldsymbol{x} \right \|_{\boldsymbol{A}}\left \| \boldsymbol{y} \right \|_{\boldsymbol{A^{-1}}} \Leftrightarrow \boldsymbol{x}=c\boldsymbol{A^{-1}y},c\neq 0 ∣∣xTy∣∣≤∥x∥A∥y∥A−1,An×n>0; ∣∣xTy∣∣=∥x∥A∥y∥A−1⇔x=cA−1y,c̸=0(待证明)
- Young 不等式:
x y ≤ x p p + y q q , x , y ≥ 0 , 1 p + 1 q = 1 , p , q > 1 ; x y = x p p + y q q ⇔ x p = y q xy \leq \frac{x^p}{p}+\frac{y^q}{q},\ x,y \geq 0,\ \frac{1}{p}+\frac{1}{q}=1,\ p,q>1;\ xy = \frac{x^p}{p}+\frac{y^q}{q}\Leftrightarrow x^p=y^q xy≤pxp+qyq, x,y≥0, p1+q1=1, p,q>1; xy=pxp+qyq⇔xp=yq
证明:当 x = 0 x = 0 x=0 或 y = 0 y = 0 y=0 时,显然成立;当 x , y > 0 x,y > 0 x,y>0 时,令 t = 1 p t = \frac{1}{p} t=p1、 1 − t = 1 q 1-t = \frac{1}{q} 1−t=q1、 a = x p a = x^p a=xp、 b = y q b = y^q b=yq,因为 ln ( x ) \ln \left(x \right) ln(x) 是一个凹函数,所以 ln [ t a + ( 1 − t ) b ] ≥ t ln a + ( 1 − t ) ln b \ln \left[ta + \left(1-t \right)b \right] \geq t\ln a + \left(1-t \right)\ln b ln[ta+(1−t)b]≥tlna+(1−t)lnb,代入 t , 1 − t , a , b t,\ 1-t,\ a,\ b t, 1−t, a, b,然后两边同取指数运算,即得上式。
- Holder 不等式(特例:Cauchy-Schwarz 不等式):
∣ x T y ∣ ≤ ∥ x ∥ p ∥ y ∥ q , 1 p + 1 q = 1 , p , q > 1 \left | \boldsymbol{x}^T \boldsymbol{y} \right |\leq \left \| \boldsymbol{x} \right \|_p\left \| \boldsymbol{y} \right \|_q,\ \frac{1}{p}+\frac{1}{q}=1,\ p,q>1 ∣∣xTy∣∣≤∥x∥p∥y∥q, p1+q1=1, p,q>1
证明:由 Young 不等式有
∣ x i y i ∣ ∥ x ∥ p ∥ y ∥ q ≤ 1 p ( ∣ x i ∣ ∥ x ∥ p ) p + 1 q ( ∣ x i ∣ ∥ x ∥ q ) q \frac{\left | x_iy_i \right |}{\left \| x \right \|_p\left \| y \right \|_q} \leq \frac{1}{p}\left ( \frac{\left | x_i \right |}{\left \| x \right \|_p} \right )^p + \frac{1}{q}\left ( \frac{\left | x_i \right |}{\left \| x \right \|_q} \right )^q ∥x∥p∥y∥q∣xiyi∣≤p1(∥x∥p∣xi∣)p+q1(∥x∥q∣xi∣)q
上述不等式两边关于 i i i 求和得1 ∥ x ∥ p ∥ y ∥ q ∑ i = 1 n ∣ x i y i ∣ ≤ 1 p ∥ x ∥ p p ∑ i = 1 n ∣ x i ∣ p + 1 q ∥ y ∥ q q ∑ i = 1 n ∣ y i ∣ q = 1 p + 1 q = 1 \frac{1}{\left \| x \right \|_p\left \| y \right \|_q}\sum_{i=1}^{n}\left | x_iy_i \right | \leq \frac{1}{p\left \| x \right \|_p^p}\sum_{i=1}^{n}\left | x_i \right |^p + \frac{1}{q\left \| y \right \|_q^q}\sum_{i=1}^{n}\left | y_i \right |^q = \frac{1}{p} + \frac{1}{q} = 1 ∥x∥p∥y∥q1i=1∑n∣xiyi∣≤p∥x∥pp1i=1∑n∣xi∣p+q∥y∥qq1i=1∑n∣yi∣q=p1+q1=1
两边同乘 ∥ x ∥ p ∥ y ∥ q \left \| x \right \|_p\left \| y \right \|_q ∥x∥p∥y∥q 即得结果。
- Minkowski 不等式(范数定义中的第 3 条性质):
∥ x + y ∥ p ≤ ∥ x ∥ p + ∥ y ∥ p , p ≥ 1 \left \| \boldsymbol{x}+\boldsymbol{y} \right \|_p\leq \left \| \boldsymbol{x} \right \|_p+\left \| \boldsymbol{y} \right \|_p,\ p \geq 1 ∥x+y∥p≤∥x∥p+∥y∥p, p≥1
证明:当 x = 0 x = 0 x=0 或 y = 0 y = 0 y=0 时,显然成立;当 x , y > 0 x,y > 0 x,y>0 时,令 t = ∥ x ∥ p ∥ x ∥ p + ∥ y ∥ p t = \frac{\left \| x \right \|_p}{\left \| x \right \|_p + \left \| y \right \|_p} t=∥x∥p+∥y∥p∥x∥p、 1 − t = ∥ y ∥ p ∥ x ∥ p + ∥ y ∥ p 1-t = \frac{\left \| y \right \|_p}{\left \| x \right \|_p + \left \| y \right \|_p} 1−t=∥x∥p+∥y∥p∥y∥p、 a = ∣ x i ∣ ∥ x ∥ p a = \frac{\left | x_i \right |}{\left \| x \right \|_p} a=∥x∥p∣xi∣、 b = ∣ y i ∣ ∥ y ∥ p b = \frac{\left | y_i \right |}{\left \| y \right \|_p} b=∥y∥p∣yi∣。因为 x p , x > 0 x^p,\ x>0 xp, x>0 是凸函数,所以有 [ t a + ( 1 − t ) b ] p ≤ t a p + ( 1 − t ) b p \left[ta + \left(1-t \right)b \right]^p \leq t a^p + \left(1-t \right) b^p [ta+(1−t)b]p≤tap+(1−t)bp,代入 t , 1 − t , a , b t,\ 1-t,\ a,\ b t, 1−t, a, b,然后两边同时对 i i i 求和,可得
∑ i = 1 n ( ∣ x i ∣ + ∣ y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ 1 \sum_{i=1}^{n}\left ( \frac{\left | x_i \right |+\left | y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq 1 i=1∑n(∥x∥p+∥y∥p∣xi∣+∣yi∣)p≤1
所以∑ i = 1 n ( ∣ x i + y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ ∑ i = 1 n ( ∣ x i ∣ + ∣ y i ∣ ∥ x ∥ p + ∥ y ∥ p ) p ≤ 1 \sum_{i=1}^{n}\left ( \frac{\left | x_i + y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq \sum_{i=1}^{n}\left ( \frac{\left | x_i \right |+\left | y_i \right |}{\left \| x \right \|_p + \left \| y \right \|_p} \right )^p \leq 1 i=1∑n(∥x∥p+∥y∥p∣xi+yi∣)p≤i=1∑n(∥x∥p+∥y∥p∣xi∣+∣yi∣)p≤1
不等号两边同取 p p p 次根,然后经恒等变换即得结果。
矩阵范数是向量范数的自然推广, R m × n R^{m\times n} Rm×n 上的矩阵可视为 R m n R^{mn} Rmn 中的向量。 R m × n R^{m\times n} Rm×n 上的矩阵范数 (matrix norm) 是一个从 R m n → R R^{mn} \rightarrow R Rmn→R 的映射 ∥ ⋅ ∥ \left \| \cdot \right \| ∥⋅∥,它满足如下三个性质:
- 非负性: ∥ A ∥ ≥ 0 , ∀ A ∈ R m × n , ∥ A ∥ = 0 ⇔ A = O \left \| \boldsymbol{A} \right \| \geq 0,\ \forall \ \boldsymbol{A} \in R^{m\times n},\ \left \| \boldsymbol{A} \right \| = 0 \Leftrightarrow \boldsymbol{A} = \boldsymbol{O} ∥A∥≥0, ∀ A∈Rm×n, ∥A∥=0⇔A=O, O \boldsymbol{O} O 为一个零矩阵
- 齐次性: ∥ α A ∥ = ∣ α ∣ ∥ A ∥ , ∀ α ∈ R , A ∈ R m × n \left \| \alpha \boldsymbol{A} \right \| =\left | \alpha \right |\left \| \boldsymbol{A} \right \|,\ \forall \alpha \in R, \ \boldsymbol{A} \in R^{m\times n} ∥αA∥=∣α∣∥A∥, ∀α∈R, A∈Rm×n
- 三角不等式: ∥ A + B ∥ ≤ ∥ A ∥ + ∥ B ∥ , ∀ A , B ∈ R m × n \left \| \boldsymbol{A}+\boldsymbol{B} \right \| \leq \left \| \boldsymbol{A} \right \|+\left \| \boldsymbol{B} \right \|,\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{m\times n} ∥A+B∥≤∥A∥+∥B∥, ∀ A,B∈Rm×n
如果 ∀ A ∈ R m × n , x ∈ R n \forall \boldsymbol{A} \in R^{m\times n},\ \boldsymbol{x} \in R^n ∀A∈Rm×n, x∈Rn 有:
∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ \left \| \boldsymbol{Ax} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{x} \right \| ∥Ax∥≤∥A∥∥x∥
我们称该矩阵范数可由向量范数导出,或与向量范数兼容,诱导 (矩阵) 范数(induced norm)因此定义为(为什么 ∥ A − 1 ∥ = 1 / min ∥ x ∥ = 1 ∥ A x ∥ \begin{aligned}\left \| \boldsymbol{A^{-1}} \right \| =1/ \min_{\left \| \boldsymbol{x} \right \|=1}\left \| \boldsymbol{Ax} \right \|\end{aligned} ∥∥A−1∥∥=1/∥x∥=1min∥Ax∥):
∥ A ∥ = max x ≠ 0 ∥ A x ∥ ∥ x ∥ = max ∥ x ∥ = 1 ∥ A x ∥ \left \| \boldsymbol{A} \right \| =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|}{ \left \| \boldsymbol{x} \right \|} = \max_{\left \| \boldsymbol{x} \right \|=1}\left \| \boldsymbol{Ax} \right \| ∥A∥=x̸=0max∥x∥∥Ax∥=∥x∥=1max∥Ax∥
显然,上式给出的诱导范数的定义满足条件 ∥ A x ∥ ≤ ∥ A ∥ ∥ x ∥ \left \| \boldsymbol{Ax} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{x} \right \| ∥Ax∥≤∥A∥∥x∥,但要保证上式定义的合理性, f ( x ) = ∥ A x ∥ f\left( \boldsymbol{x} \right) = \left \| \boldsymbol{Ax} \right \| f(x)=∥Ax∥ 在 D = { x ∈ R n : ∥ x ∥ = 1 } D = \left \{\boldsymbol{x} \in R^n: \left \| \boldsymbol{x} \right \| = 1 \right \} D={ x∈Rn:∥x∥=1} 上必须存在最大值。根据向量范数的连续性,以及有界闭集上的连续函数必有最大最小值的定理,我们可以知道上述定义是合理的。
如果对 n × n n\times n n×n 正交矩阵 U \boldsymbol{U} U 有 ∥ U A ∥ = ∥ A ∥ \left \| \boldsymbol{UA} \right \| = \left \| \boldsymbol{A} \right \| ∥UA∥=∥A∥,则称 ∥ ⋅ ∥ \left \| \cdot \right \| ∥⋅∥ 为正交不变范数。常用的矩阵范数如下所示:
-
l 1 l_1 l1 诱导范数 / 列和范数 ( l 1 i n d u c e d n o r m ) \left ( l_1\ \mathrm{induced\ norm} \right ) (l1 induced norm):
∥ A ∥ 1 = max j ∥ a j ∥ 1 = max j ∑ i = 1 n ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_1 = \max_{j}\left \| \boldsymbol{a}_{j} \right \|_1 = \max_{j}\sum_{i=1}^{n}\left | a_{ij} \right | ∥A∥1=jmax∥aj∥1=jmaxi=1∑n∣aij∣
-
l 2 l_2 l2 诱导范数 / 谱范数 ( l 2 i n d u c e d n o r m / s p e c t r a l n o r m ) \left ( l_2\ \mathrm{induced\ norm \ / \ spectral \ norm} \right ) (l2 induced norm / spectral norm):
∥ A ∥ 2 = λ m a x ( A T A ) \left \| \boldsymbol{A} \right \|_2 = \sqrt{\lambda_{\mathrm{max}} \left ( \boldsymbol{A}^T\boldsymbol{A} \right )} ∥A∥2=λmax(ATA)
-
l ∞ l_\infty l∞ 诱导范数 / 行和范数 ( l ∞ i n d u c e d n o r m ) \left ( l_\infty\ \mathrm{induced\ norm} \right ) (l∞ induced norm):
∥ A ∥ ∞ = max i ∥ a i ∥ 1 = max i ∑ j = 1 n ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_\infty = \max_{i}\left \| \boldsymbol{a}_{i} \right \|_1 = \max_{i}\sum_{j=1}^{n}\left | a_{ij} \right | ∥A∥∞=imax∥ai∥1=imaxj=1∑n∣aij∣
-
Frobenius 范数 ( F r o b e n i u s n o r m ) \left (\mathrm{Frobenius\ norm} \right ) (Frobenius norm):
∥ A ∥ F = ( ∑ i = 1 n ∑ j = 1 n ∣ a i j ∣ 2 ) 1 2 = t r ( A T A ) \left \| \boldsymbol{A} \right \|_F = \left ( \sum_{i=1}^{n}\sum_{j=1}^{n}\left | a_{ij} \right |^2 \right )^{\frac{1}{2}} = \sqrt{\mathrm{tr}\left ( \boldsymbol{A}^T\boldsymbol{A} \right )} ∥A∥F=(i=1∑nj=1∑n∣aij∣2)21=tr(ATA)
-
这里 a j \boldsymbol{a}_{j} aj 为矩阵 A \boldsymbol{A} A 的第 j j j 列构成的向量, a i \boldsymbol{a}_{i} ai 为矩阵 A \boldsymbol{A} A 的第 i i i 行构成的向量, λ m a x ( A T A ) \lambda_{\mathrm{max}} \left ( \boldsymbol{A}^T\boldsymbol{A} \right ) λmax(ATA) 为矩阵 A T A \boldsymbol{A}^T\boldsymbol{A} ATA 的最大特征值, t r ( A T A ) \mathrm{tr}\left ( \boldsymbol{A}^T\boldsymbol{A} \right ) tr(ATA) 为矩阵 A T A \boldsymbol{A}^T\boldsymbol{A} ATA 的迹(主对角线上元素的和)
上述常用矩阵范数中,谱范数和 Frobenius 范数为正交不变范数。此外,上述常用矩阵范数均满足相容性条件:
∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ , ∀ A , B ∈ R n × n \left \| \boldsymbol{AB} \right \| \leq \left \| \boldsymbol{A} \right \|\left \| \boldsymbol{B} \right \|,\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{n\times n} ∥AB∥≤∥A∥∥B∥, ∀ A,B∈Rn×n
且有(为什么成立):
∥ A B ∥ F ≤ min { ∥ A ∥ 2 ∥ B ∥ F , ∥ A ∥ F ∥ B ∥ 2 } , ∀ A , B ∈ R n × n \left \| \boldsymbol{AB} \right \|_F \leq \min \left \{ \left \| \boldsymbol{A} \right \|_2 \left \| \boldsymbol{B} \right \|_F,\left \| \boldsymbol{A} \right \|_F \left \| \boldsymbol{B} \right \|_2 \right \},\ \forall \ \boldsymbol{A},\boldsymbol{B} \in R^{n\times n} ∥AB∥F≤min{ ∥A∥2∥B∥F,∥A∥F∥B∥2}, ∀ A,B∈Rn×n
在本节最后,我们给出 l 1 l_1 l1 诱导范数、 l 2 l_2 l2 诱导范数和 l ∞ l_\infty l∞ 诱导范数的证明过程
l 1 l_1 l1 诱导范数的证明如下:
∵ ∥ A x ∥ 1 = ∑ i = 1 m ∣ ∑ j = 1 n a i j x j ∣ ≤ ∑ i = 1 m ∑ j = 1 n ∣ a i j ∣ ∣ x j ∣ = ∑ j = 1 n ∑ i = 1 m ∣ a i j ∣ ∣ x j ∣ ≤ ( max j ∑ i = 1 m ∣ a i j ∣ ) ∑ j = 1 n ∣ x j ∣ = max j ∑ i = 1 m ∣ a i j ∣ ∥ x ∥ 1 ∴ ∥ A ∥ 1 = max x ≠ 0 ∥ A x ∥ 1 ∥ x ∥ 1 = max ∥ x ∥ 1 = 1 ∥ A x ∥ 1 ≤ max j ∑ i = 1 m ∣ a i j ∣ ⋯ ( 1 ) \begin{aligned} &\because \ \left \| \boldsymbol{Ax} \right \|_1=\sum_{i=1}^{m}\left | \sum_{j=1}^{n}a_{ij}x_j \right | \leq \sum_{i=1}^{m}\sum_{j=1}^{n}\left | a_{ij} \right |\left | x_j \right |= \sum_{j=1}^{n}\sum_{i=1}^{m}\left | a_{ij} \right |\left | x_j \right | \\ &\leq \left ( \max_j \sum_{i=1}^{m}\left | a_{ij} \right | \right )\sum_{j=1}^{n}\left | x_j \right |=\max_j \sum_{i=1}^{m}\left | a_{ij} \right |\left \| \boldsymbol{x} \right \|_1 \end{aligned} \\ \therefore \ \left \| \boldsymbol{A} \right \|_1 =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|_1}{ \left \| \boldsymbol{x} \right \|_1} = \max_{\left \| \boldsymbol{x} \right \|_1=1}\left \| \boldsymbol{Ax} \right \|_1 \leq \max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | \qquad \cdots \left(1\right) ∵ ∥Ax∥1=i=1∑m∣∣∣∣∣j=1∑naijxj∣∣∣∣∣≤i=1∑mj=1∑n∣aij∣∣xj∣=j=1∑ni=1∑m∣aij∣∣xj∣≤(jmaxi=1∑m∣aij∣)j=1∑n∣xj∣=jmaxi=1∑m∣aij∣∥x∥1∴ ∥A∥1=x̸=0max∥x∥1∥Ax∥1=∥x∥1=1max∥Ax∥1≤jmaxi=1∑m∣aij∣⋯(1)
取 x ( j ) = ( 0 , ⋯   , 1 , ⋯   , 0 ) , j = 1 , 2 , ⋯   , n \boldsymbol{x^{(j)}}=(0,\cdots,1,\cdots,0),\ j=1,2,\cdots,n x(j)=(0,⋯,1,⋯,0), j=1,2,⋯,n,它是除第 j j j 个元素为 1 1 1、其余元素全为 0 0 0 的向量,则有∥ A ∥ 1 = max x ≠ 0 ∥ A x ∥ 1 ∥ x ∥ 1 = max ∥ x ∥ 1 = 1 ∥ A x ∥ 1 ≥ max x ( j ) ∥ A x ∥ 1 = max j ∑ i = 1 m ∣ a i j ∣ ⋯ ( 2 ) \left \| \boldsymbol{A} \right \|_1 =\max_{\boldsymbol{x}\neq 0} \frac{\left \| \boldsymbol{Ax} \right \|_1}{ \left \| \boldsymbol{x} \right \|_1} = \max_{\left \| \boldsymbol{x} \right \|_1=1}\left \| \boldsymbol{Ax} \right \|_1 \geq \max_{\boldsymbol{x}^{(j)}}\left \| \boldsymbol{Ax} \right \|_1=\max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | \qquad \cdots \left(2\right) ∥A∥1=x̸=0max∥x∥1∥Ax∥1=∥x∥1=1max∥Ax∥1≥x(j)max∥Ax∥1=jmaxi=1∑m∣aij∣⋯(2)
由 ( 1 ) \left(1 \right) (1)、 ( 2 ) \left(2 \right) (2) 两式知∥ A ∥ 1 = max j ∑ i = 1 m ∣ a i j ∣ \left \| \boldsymbol{A} \right \|_1 =\max_{j}\sum_{i=1}^{m}\left | a_{ij} \right | ∥A∥1=jmaxi=1∑m∣aij∣
l 2 l_2 l2 诱导范数的证明如下:
设 x 1 , x 2 , ⋯   , x n \boldsymbol{x}_1,\boldsymbol{x}_2,\cdots,\boldsymbol{x}_n x1,x2,⋯,xn 为对称半正定矩阵 A T A A^TA ATA 的与特征值 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ n \lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n λ1≥λ2≥⋯≥λn 相对应的相互正交的特征向量,则 ∀ x = 1 \forall \ \boldsymbol{x} = 1 ∀ x=1 的向量 x \boldsymbol{x} x,必存在满足条件 c 1 2 + c 2 2 + ⋯ + c n 2 = 1 c_1^2+c_2^2+\cdots+c_n^2=1 c12+c22+⋯+cn2=1 的 c 1 , c 2 , ⋯   , c n c_1,c_2,\cdots,c_n c1,c2,⋯,cn 使得 x = c 1 x 1 + c 2 x 2 + ⋯ + c n x n \boldsymbol{x}=c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n x=c1x1+c2x2+⋯+cnxn。所以有:∥ A x ∥ 2 2 = ( A x ) T A x = x T A T A x = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T A T A ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T ( c 1 A T A x 1 + c 2 A T A x 2 + ⋯ + c n A T A x n ) = ( c 1 x 1 + c 2 x 2 + ⋯ + c n x n ) T ( c 1 λ 1 x 1 + c 2 λ 2 x 2 + ⋯ + c n λ n x n ) = ( c 1 x 1 T + c 2 x 2 T + ⋯ + c n x n T ) ( c 1 λ 1 x 1 + c 2 λ 2 x 2 + ⋯ + c n λ n x n ) = ∑ i = 1 n ∑ j = 1 n λ i λ j c i c j x i T x j = ∑ i = 1 n λ i c i 2 ≤ λ 1 ∑ i = 1 n c i 2 = λ 1 ⋯ ( 3 ) \begin{aligned} &\ \left \| \boldsymbol{Ax} \right \|_2^2 = \left ( \boldsymbol{Ax} \right )^T \boldsymbol{Ax} = \boldsymbol{x}^T\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x} \\ &= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\boldsymbol{A}^T\boldsymbol{A}\left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right ) \\ &= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\left ( c_1\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_1+c_2\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_2+\cdots+c_n\boldsymbol{A}^T\boldsymbol{A}\boldsymbol{x}_n \right ) \\ &= \left ( c_1\boldsymbol{x}_1+c_2\boldsymbol{x}_2+\cdots+c_n\boldsymbol{x}_n \right )^T\left ( c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_n\lambda_n\boldsymbol{x}_n \right )\\ &= \left ( c_1\boldsymbol{x}_1^T+c_2\boldsymbol{x}_2^T+\cdots+c_n\boldsymbol{x}_n^T \right )\left ( c_1\lambda_1\boldsymbol{x}_1+c_2\lambda_2\boldsymbol{x}_2+\cdots+c_n\lambda_n\boldsymbol{x}_n \right ) \\ &= \sum_{i=1}^n\sum_{j=1}^n\lambda_i\lambda_j c_ic_j \boldsymbol{x}_i^T\boldsymbol{x}_j = \sum_{i=1}^n \lambda_i c_i^2 \\ &\leq \lambda_1 \sum_{i=1}^n c_i^2 = \lambda_1 \qquad \cdots \left(3\right) \end{aligned}