抄书——最优化的理论与方法(1)——数学基础(范数部分)

今天抄袁亚湘的《最优化理论与方法》。这本书1997年就出版了,距今20余年,近来翻开仍觉得很值得细细研读。于我而言,仔细研读就是抄,而把它抄在自己的博客上,是为了让自己能坚持下去,就如在朋友圈上嗮出每天跑了多少路似的。希望以这种方式,能督促我坚持下去。
.
.
1.2.1 范数
定义1.2.1 映射 ∥ ⋅ ∥ : R n → R \Vert \cdot \Vert:\mathbb R^n\rightarrow \mathbb R :RnR 称为 R n \mathbb R^n Rn 上的半范数,当且仅当它具有下列性质:
(i) ∥ x ∥ ≥ 0 , ∀ x ∈ R n \Vert x \Vert \ge 0,\forall x \in \mathbb R^n x0,xRn ,——非负性
(ii) ∥ α x ∥ = ∣ α ∣ ∥ x ∥ , ∀ α ∈ R , x ∈ R n \Vert \alpha x \Vert = \vert \alpha\vert \Vert x \Vert, \forall \alpha \in \mathbb R, x \in \mathbb R^n αx=αx,αR,xRn ,——标量乘
(iii) ∥ x + y ∥ ≤ ∥ x ∥ + ∥ y ∥ , ∀ x , y ∈ R n \Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert , \forall x,y \in \mathbb R^n x+yx+y,x,yRn,——三角不等式
此外,除了上述性质外,如果映射还满足:
(iv) ∥ x ∥ = 0 ⇐ ⇒ x = 0 \Vert x \Vert=0 \Leftarrow\Rightarrow x=0 x=0x=0
∥ ⋅ ∥ \Vert \cdot \Vert 称为 R n \mathbb R^n Rn 上的范数
x = ( x 1 , x 2 , ⋯   , x n ) T ∈ R n x=(x_1,x_2,\cdots,x_n)^T\in \mathbb R^n x=(x1,x2,,xn)TRn,常用的向量范数为:
∥ x ∥ ∞ = max ⁡ i ∣ x i ∣ ( 1.2.1 ) ∥ x ∥ 1 = ∑ i = 1 n ∣ x i ∣ ( 1.2.2 ) ∥ x ∥ 2 = ( ∑ i = 1 n x i 2 ) 1 / 2 ( 1.2.3 ) \Vert x \Vert_{\infty}=\max_{i} \vert x_i \vert \qquad(1.2.1)\\ \Vert x \Vert_{1}=\sum_{i=1}^n\vert x_i \vert \qquad(1.2.2)\\ \Vert x \Vert_{2}=\left(\sum_{i=1}^n x_i^2 \right)^{1/2}\qquad(1.2.3) x=imaxxi(1.2.1)x1=i=1nxi(1.2.2)x2=(i=1nxi2)1/2(1.2.3)
这些都是 l p l_p lp 范数的特例。一般地,对于 1 ≤ p &lt; ∞ 1\le p \lt \infty 1p< l p l_p lp 范数定义为:
∥ x ∥ p = ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p ( 1.2.4 ) \Vert x \Vert_{p} = \left( \sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} \qquad(1.2.4) xp=(i=1nxip)1/p(1.2.4)
类似于向量范数的定义,可以定义矩阵范数,设 A ∈ R n × n A\in \mathbb R^{n\times n} ARn×n,其诱导矩阵范数定义为:
∥ A ∥ = max ⁡ x ≠ 0 { ∥ A x ∥ ∥ x ∥ } ( 1.2.5 ) \Vert A \Vert = \max_{x\neq 0}\left\{ \frac{\Vert Ax\Vert}{\Vert x\Vert}\right\} \qquad(1.2.5) A=x̸=0max{xAx}(1.2.5)
其中,x是n维空间任一不为零的矢量, ∥ x ∥ \Vert x\Vert x 是它的向量。于是,由上述常用矢量范数可以诱导出如下范数:
1) l 1 l_1 l1 诱导矩阵范数(列和范数):
∥ A ∥ 1 = max ⁡ j { ∥ a ⋅ j ∥ 1 } = max ⁡ j ∑ i = 1 n ∣ a i j ∣ ( 1.2.6 ) \Vert A \Vert_1=\max_j \left \{ \Vert a_{\cdot j}\Vert_1 \right \}=\max_j\sum_{i=1}^n \vert a_{ij} \vert \qquad(1.2.6) A1=jmax{aj1}=jmaxi=1naij(1.2.6)
2) l ∞ l_{\infty} l 诱导矩阵范数(行和范数):
∥ A ∥ ∞ = max ⁡ i { ∥ a i ⋅ ∥ 1 } = max ⁡ i ∑ j = 1 n ∣ a i j ∣ ( 1.2.7 ) \Vert A \Vert_{\infty}=\max_i \left \{ \Vert a_{i\cdot }\Vert_1 \right \}=\max_i \sum_{j=1}^n \vert a_{ij} \vert \qquad(1.2.7) A=imax{ai1}=imaxj=1naij(1.2.7)
3) l 2 l_2 l2 诱导矩阵范数(谱范数):前面博客中讨论的GAN判别器的谱范数定义相同
∥ A ∥ 2 = ( λ A T A ) 1 / 2 ( 1.2.8 ) \Vert A \Vert_2=(\lambda_{A^TA})^{1/2} \qquad(1.2.8) A2=(λATA)1/2(1.2.8)
这里 λ A T A \lambda_{A^TA} λATA 表示 A T A A^TA ATA 的最大特征值。对于A的逆,有:
∥ A − 1 ∥ = 1 min ⁡ x ≠ 0 ∥ A x ∥ ∥ x ∥ \Vert A^{-1} \Vert=\frac{1}{\min_{x\neq 0}\frac{\Vert Ax\Vert}{\Vert x \Vert}} A1=minx̸=0xAx1
此外,对于诱导矩阵范数,我们总有 ∥ I ∥ = 1 \Vert I \Vert=1 I=1。除了上述由矢量诱导得到的矩阵范数,还有其他范数,如:Frobenius范数,其定义如下:
∥ A ∥ F = ( ∑ i = 1 n ∑ j = 1 n ∣ a i j ∣ 2 ) 1 / 2 = [ t r ( A T A ) ] 1 / 2 ( 1.2.9 ) \Vert A \Vert_F = \left( \sum_{i=1}^n \sum_{j=1}^n \vert a_{ij}\vert^2\right)^{1/2} = [tr(A^TA)]^{1/2} \qquad(1.2.9) AF=(i=1nj=1naij2)1/2=[tr(ATA)]1/2(1.2.9)
其中 t r ( A ) tr(A) tr(A) 表示矩阵 A 的迹(trace)。


其实,这个也很好验证:
A = [ a 11 a 12 a 21 a 22 ] A T A = [ a 11 a 21 a 12 a 22 ] ⋅ [ a 11 a 12 a 21 a 22 ] = [ a 11 2 + a 21 2 ⋅ ⋅ a 21 2 + a 22 2 ] t r ( A T A ) = a 11 2 + a 21 2 + a 21 2 + a 22 2 A=\left [ \begin{array} {cc} a_{11}&amp;a_{12}\\ a_{21}&amp;a_{22}\end{array} \right ] \\ \text{} \\ A^TA=\left [ \begin{array} {cc} a_{11}&amp;a_{21}\\ a_{12}&amp;a_{22}\end{array} \right ] \cdot \left [ \begin{array} {cc} a_{11}&amp;a_{12}\\ a_{21}&amp;a_{22}\end{array} \right ] =\left [ \begin{array} {cc} a_{11}^2+a_{21}^2&amp;\cdot\\ \cdot &amp;a_{21}^2+a_{22}^2\end{array} \right ] \\ \text{} \\tr(A^TA)=a_{11}^2+a_{21}^2+a_{21}^2+a_{22}^2 A=[a11a21a12a22]ATA=[a11a12a21a22][a11a21a12a22]=[a112+a212a212+a222]tr(ATA)=a112+a212+a212+a222


除了一般定义的矩阵范数外,还有加权范数,加权 Frobenius范数 和 加权 l 2 l_2 l2 范数的定义分别为:
∥ A ∥ M , F = ∥ M A M ∥ F ∥ A ∥ M , 2 = ∥ M A M ∥ 2 \Vert A \Vert_{M,F} = \Vert MAM \Vert_F\\ \Vert A \Vert_{M,2} = \Vert MAM \Vert_2 AM,F=MAMFAM,2=MAM2
其中, M M M n × n n\times n n×n 对称正定矩阵。
如果,某个范数 ∥ ⋅ ∥ \Vert \cdot \Vert 满足:
∥ A B ∥ ≤ ∥ A ∥ ∥ B ∥ ( 1.2.10 ) \Vert AB \Vert \le \Vert A \Vert \Vert B \Vert \qquad(1.2.10) ABAB(1.2.10)
则称范数 ∥ ⋅ ∥ \Vert \cdot \Vert 满足相容性条件。容易看出,诱导p-范数和Frobenius范数满足相容性条件,并且有:
∥ A B ∥ F ≤ min ⁡ { ∥ A ∥ 2 ∥ B ∥ F , ∥ A ∥ F ∥ B ∥ 2 } ( 1.2.10 a ) \Vert AB\Vert_F \le \min\{\Vert A \Vert_2\Vert B \Vert_F,\Vert A \Vert_F\Vert B \Vert_2\}\qquad(1.2.10a) ABFmin{A2BF,AFB2}(1.2.10a)
此外,椭球向量范数也是常用的向量范数。设 x ∈ R n , A ∈ R n × n x\in \mathbb R^n,A\in \mathbb R^{n\times n} xRn,ARn×n 是对称正定矩阵,向量x的椭球范数定义为:
∥ x ∥ A = ( x T A x ) 1 / 2 ( 1.2.11 ) \Vert x \Vert_A=(x^T A x)^{1/2} \qquad(1.2.11) xA=(xTAx)1/2(1.2.11)
直交变换下不变的矩阵范数也是一类重要的矩阵范数。设 U U U n n n 阶直交矩阵,若:
∥ U A ∥ = ∥ A ∥ \Vert UA \Vert = \Vert A \Vert UA=A
则称范数 ∥ ⋅ ∥ \Vert \cdot \Vert 直交不变矩阵范数。显然,谱范数和Frobenius范数是直交不变范数。


什么叫“直交变换”呢?好像就是“正交变换”,即矩阵乘以单位正交矩阵。也就是矩阵经过正交变换后,其谱范数Frobenius范数保持不变,也称为保范性


关于范数的等价性,我们有:
定义1.2.2 ∥ ⋅ ∥ α \Vert \cdot \Vert_{\alpha} α ∥ ⋅ ∥ β \Vert \cdot \Vert_{\beta} β R n \mathbb R^n Rn 上任意两个范数,如果存在 μ 1 , μ 2 &gt; 0 \mu_1, \mu_2 \gt 0 μ1,μ2>0,使得
μ 1 ∥ x ∥ α ≤ ∥ x ∥ β ≤ μ 2 ∥ x ∥ α , ∀ x ∈ R n ( 1.2.12 ) \mu_1 \Vert x \Vert_{\alpha} \le \Vert x \Vert_{\beta} \le \mu_2 \Vert x \Vert_{\alpha}, \forall x \in \mathbb R^n \qquad(1.2.12) μ1xαxβμ2xα,xRn(1.2.12)
则称范数 ∥ ⋅ ∥ α \Vert \cdot \Vert_{\alpha} α ∥ ⋅ ∥ β \Vert \cdot \Vert_{\beta} β等价的。
特别,对于矢量 x x x 我们有:
∥ x ∥ 2 ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ 2 ( 1.2.13 ) ∥ x ∥ ∞ ≤ ∥ x ∥ 2 ≤ n ∥ x ∥ ∞ ( 1.2.14 ) ∥ x ∥ ∞ ≤ ∥ x ∥ 1 ≤ n ∥ x ∥ ∞ ( 1.2.15 ) ∥ x ∥ ∞ ≤ ∥ x ∥ 2 ≤ ∥ x ∥ 1 ( 1.2.16 ) λ ∥ x ∥ 2 ≤ ∥ x ∥ A ≤ Λ ∥ x ∥ 2 ( 1.2.17 ) \Vert x \Vert_2 \le \Vert x \Vert_1 \le \sqrt n\Vert x \Vert_2\qquad(1.2.13)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \sqrt n\Vert x \Vert_{\infty}\qquad(1.2.14)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_1 \le n\Vert x \Vert_{\infty}\qquad(1.2.15)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \Vert x \Vert_1\qquad(1.2.16)\\ \sqrt \lambda \Vert x \Vert_2 \le \Vert x \Vert_A \le \sqrt \Lambda \Vert x \Vert_2\qquad(1.2.17) x2x1n x2(1.2.13)xx2n x(1.2.14)xx1nx(1.2.15)xx2x1(1.2.16)λ x2xAΛ x2(1.2.17)
其中, ∥ x ∥ A \Vert x \Vert_A xA 表示 x x x 的椭球向量范数, A A A 是对称正定矩阵, λ \lambda λ 是它的最小特征值, Λ \Lambda Λ 是它的最大特征值。


由以上不等式(1.2.13)~(1.2.17)是否可以说明这些范数定义是等价的呢?答案是肯定的。


{ x k } \{ x_k\} {xk} 是向量序列,如果:
lim ⁡ k → ∞ ∥ x k − x ∗ ∥ = 0 ( 1.2.18 ) \lim_{k\to \infty} \Vert x_k - x^*\Vert = 0 \qquad(1.2.18) klimxkx=0(1.2.18)
则称序列 { x k } \{ x_k\} {xk} 依范数收敛 x ∗ x^* x
R n \mathbb R^n Rn 中,如果序列 { x k } \{ x_k\} {xk} 满足:
lim ⁡ m , l → ∞ ∥ x m − x l ∥ = 0 \lim_{m,l\to \infty} \Vert x_m - x_l\Vert = 0 m,llimxmxl=0
则称序列 { x k } \{ x_k\} {xk} 为Cauchy 序列。这就是说,对给定的 ϵ &gt; 0 \epsilon \gt 0 ϵ>0,存在整数 N ϵ N_{\epsilon} Nϵ,使得每当 m , l &gt; N ϵ m,l\gt N_{\epsilon} m,l>Nϵ 时,就有:
∥ x m − x l ∥ &lt; ϵ \Vert x_m - x_l\Vert\lt \epsilon xmxl<ϵ
成立。在 R n \mathbb R^n Rn 中,序列 { x k } \{ x_k\} {xk} 收敛,当且仅当 { x k } \{ x_k\} {xk}Cauchy 序列
关于范数的几个重要不等式
(1)Cauchy-Schwarz 不等式:
∣ x T y ∣ ≤ ∥ x ∥ ∥ y ∥ \vert x^Ty \vert \le \Vert x \Vert \Vert y \Vert xTyxy
当且仅当x和y线性相关时,等式成立
(2)设 A A A n × n n \times n n×n 正定矩阵,则:
∣ x T A y ∣ ≤ ∥ x ∥ A ∥ y ∥ A \vert x^T A y \vert \le \Vert x \Vert_A \Vert y \Vert_A xTAyxAyA
当且仅当x和y线性相关时,等式成立
(3)设 A A A n × n n \times n n×n 正定矩阵,则:
∣ x T y ∣ ≤ ∥ x ∥ A ∥ y ∥ A − 1 \vert x^T y \vert \le \Vert x \Vert_A \Vert y \Vert_{A^{-1}} xTyxAyA1
当且仅当x和 A − 1 y A^{-1}y A1y线性相关时,等式成立
(4)Young不等式:假定 p 和 q 都是大于1的实数, 1 p + 1 q = 1 \frac{1}{p} + \frac{1}{q}=1 p1+q1=1,如果 x 和 y 是实数,则:
x y ≤ x p p + y q q xy\le \frac{x^p}{p} +\frac{y^q}{q} xypxp+qyq
当且仅当 x p = y q x^p = y^q xp=yq 时,等式成立
(5)Holder不等式:
∣ x T y ∣ ≤ ∥ x ∥ p ∥ y ∥ q = ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p + ( ∑ i = 1 n ∣ y i ∣ q ) 1 / q \vert x^Ty\vert \le \Vert x \Vert_p \Vert y \Vert_q = \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} +\left(\sum_{i=1}^n \vert y_i \vert^q\right)^{1/q} xTyxpyq=(i=1nxip)1/p+(i=1nyiq)1/q
其中,p和q都大于1,且满足 1 p + 1 q = 1 \frac{1}{p} + \frac{1}{q}=1 p1+q1=1
(6)Minkowski不等式:
∥ x + y ∥ p ≤ ∥ x ∥ p + ∥ y ∥ p   即   ( ∑ i = 1 n ∣ x i + y i ∣ p ) 1 / p ≤ ( ∑ i = 1 n ∣ x i ∣ p ) 1 / p + ( ∑ i = 1 n ∣ y i ∣ p ) 1 / p \Vert x+y \Vert_p \le \Vert x \Vert_p + \Vert y \Vert_p \\ \text{ } \\ \text{即}\\ \text{ } \\ \left(\sum_{i=1}^n \vert x_i + y_i \vert^p\right)^{1/p} \le \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} + \left(\sum_{i=1}^n \vert y_i \vert^p\right)^{1/p} x+ypxp+yp  (i=1nxi+yip)1/p(i=1nxip)1/p+(i=1nyip)1/p

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值