今天抄袁亚湘的《最优化理论与方法》。这本书1997年就出版了,距今20余年,近来翻开仍觉得很值得细细研读。于我而言,仔细研读就是抄,而把它抄在自己的博客上,是为了让自己能坚持下去,就如在朋友圈上嗮出每天跑了多少路似的。希望以这种方式,能督促我坚持下去。
.
.
1.2.1 范数
定义1.2.1 映射
∥
⋅
∥
:
R
n
→
R
\Vert \cdot \Vert:\mathbb R^n\rightarrow \mathbb R
∥⋅∥:Rn→R 称为
R
n
\mathbb R^n
Rn 上的半范数
,当且仅当它具有下列性质:
(i)
∥
x
∥
≥
0
,
∀
x
∈
R
n
\Vert x \Vert \ge 0,\forall x \in \mathbb R^n
∥x∥≥0,∀x∈Rn ,——非负性
(ii)
∥
α
x
∥
=
∣
α
∣
∥
x
∥
,
∀
α
∈
R
,
x
∈
R
n
\Vert \alpha x \Vert = \vert \alpha\vert \Vert x \Vert, \forall \alpha \in \mathbb R, x \in \mathbb R^n
∥αx∥=∣α∣∥x∥,∀α∈R,x∈Rn ,——标量乘
(iii)
∥
x
+
y
∥
≤
∥
x
∥
+
∥
y
∥
,
∀
x
,
y
∈
R
n
\Vert x+y \Vert \le \Vert x \Vert + \Vert y \Vert , \forall x,y \in \mathbb R^n
∥x+y∥≤∥x∥+∥y∥,∀x,y∈Rn,——三角不等式
此外,除了上述性质外,如果映射还满足:
(iv)
∥
x
∥
=
0
⇐
⇒
x
=
0
\Vert x \Vert=0 \Leftarrow\Rightarrow x=0
∥x∥=0⇐⇒x=0
则
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 称为
R
n
\mathbb R^n
Rn 上的范数
。
设
x
=
(
x
1
,
x
2
,
⋯
 
,
x
n
)
T
∈
R
n
x=(x_1,x_2,\cdots,x_n)^T\in \mathbb R^n
x=(x1,x2,⋯,xn)T∈Rn,常用的向量范数
为:
∥
x
∥
∞
=
max
i
∣
x
i
∣
(
1.2.1
)
∥
x
∥
1
=
∑
i
=
1
n
∣
x
i
∣
(
1.2.2
)
∥
x
∥
2
=
(
∑
i
=
1
n
x
i
2
)
1
/
2
(
1.2.3
)
\Vert x \Vert_{\infty}=\max_{i} \vert x_i \vert \qquad(1.2.1)\\ \Vert x \Vert_{1}=\sum_{i=1}^n\vert x_i \vert \qquad(1.2.2)\\ \Vert x \Vert_{2}=\left(\sum_{i=1}^n x_i^2 \right)^{1/2}\qquad(1.2.3)
∥x∥∞=imax∣xi∣(1.2.1)∥x∥1=i=1∑n∣xi∣(1.2.2)∥x∥2=(i=1∑nxi2)1/2(1.2.3)
这些都是
l
p
l_p
lp 范数的特例。一般地,对于
1
≤
p
<
∞
1\le p \lt \infty
1≤p<∞,
l
p
l_p
lp 范数定义为:
∥
x
∥
p
=
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
(
1.2.4
)
\Vert x \Vert_{p} = \left( \sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} \qquad(1.2.4)
∥x∥p=(i=1∑n∣xi∣p)1/p(1.2.4)
类似于向量范数的定义,可以定义矩阵范数
,设
A
∈
R
n
×
n
A\in \mathbb R^{n\times n}
A∈Rn×n,其诱导矩阵范数定义为:
∥
A
∥
=
max
x
≠
0
{
∥
A
x
∥
∥
x
∥
}
(
1.2.5
)
\Vert A \Vert = \max_{x\neq 0}\left\{ \frac{\Vert Ax\Vert}{\Vert x\Vert}\right\} \qquad(1.2.5)
∥A∥=x̸=0max{∥x∥∥Ax∥}(1.2.5)
其中,x是n维空间任一不为零的矢量,
∥
x
∥
\Vert x\Vert
∥x∥ 是它的向量。于是,由上述常用矢量范数可以诱导出如下范数:
1)
l
1
l_1
l1 诱导矩阵范数(列和范数):
∥
A
∥
1
=
max
j
{
∥
a
⋅
j
∥
1
}
=
max
j
∑
i
=
1
n
∣
a
i
j
∣
(
1.2.6
)
\Vert A \Vert_1=\max_j \left \{ \Vert a_{\cdot j}\Vert_1 \right \}=\max_j\sum_{i=1}^n \vert a_{ij} \vert \qquad(1.2.6)
∥A∥1=jmax{∥a⋅j∥1}=jmaxi=1∑n∣aij∣(1.2.6)
2)
l
∞
l_{\infty}
l∞ 诱导矩阵范数(行和范数):
∥
A
∥
∞
=
max
i
{
∥
a
i
⋅
∥
1
}
=
max
i
∑
j
=
1
n
∣
a
i
j
∣
(
1.2.7
)
\Vert A \Vert_{\infty}=\max_i \left \{ \Vert a_{i\cdot }\Vert_1 \right \}=\max_i \sum_{j=1}^n \vert a_{ij} \vert \qquad(1.2.7)
∥A∥∞=imax{∥ai⋅∥1}=imaxj=1∑n∣aij∣(1.2.7)
3)
l
2
l_2
l2 诱导矩阵范数(谱范数):前面博客中讨论的GAN判别器的谱范数定义相同
:
∥
A
∥
2
=
(
λ
A
T
A
)
1
/
2
(
1.2.8
)
\Vert A \Vert_2=(\lambda_{A^TA})^{1/2} \qquad(1.2.8)
∥A∥2=(λATA)1/2(1.2.8)
这里
λ
A
T
A
\lambda_{A^TA}
λATA 表示
A
T
A
A^TA
ATA 的最大特征值。对于A的逆,有:
∥
A
−
1
∥
=
1
min
x
≠
0
∥
A
x
∥
∥
x
∥
\Vert A^{-1} \Vert=\frac{1}{\min_{x\neq 0}\frac{\Vert Ax\Vert}{\Vert x \Vert}}
∥A−1∥=minx̸=0∥x∥∥Ax∥1
此外,对于诱导矩阵范数,我们总有
∥
I
∥
=
1
\Vert I \Vert=1
∥I∥=1。除了上述由矢量诱导得到的矩阵范数,还有其他范数,如:Frobenius范数,其定义如下:
∥
A
∥
F
=
(
∑
i
=
1
n
∑
j
=
1
n
∣
a
i
j
∣
2
)
1
/
2
=
[
t
r
(
A
T
A
)
]
1
/
2
(
1.2.9
)
\Vert A \Vert_F = \left( \sum_{i=1}^n \sum_{j=1}^n \vert a_{ij}\vert^2\right)^{1/2} = [tr(A^TA)]^{1/2} \qquad(1.2.9)
∥A∥F=(i=1∑nj=1∑n∣aij∣2)1/2=[tr(ATA)]1/2(1.2.9)
其中
t
r
(
A
)
tr(A)
tr(A) 表示矩阵 A 的迹(trace)。
其实,这个也很好验证:
A
=
[
a
11
a
12
a
21
a
22
]
A
T
A
=
[
a
11
a
21
a
12
a
22
]
⋅
[
a
11
a
12
a
21
a
22
]
=
[
a
11
2
+
a
21
2
⋅
⋅
a
21
2
+
a
22
2
]
t
r
(
A
T
A
)
=
a
11
2
+
a
21
2
+
a
21
2
+
a
22
2
A=\left [ \begin{array} {cc} a_{11}&a_{12}\\ a_{21}&a_{22}\end{array} \right ] \\ \text{} \\ A^TA=\left [ \begin{array} {cc} a_{11}&a_{21}\\ a_{12}&a_{22}\end{array} \right ] \cdot \left [ \begin{array} {cc} a_{11}&a_{12}\\ a_{21}&a_{22}\end{array} \right ] =\left [ \begin{array} {cc} a_{11}^2+a_{21}^2&\cdot\\ \cdot &a_{21}^2+a_{22}^2\end{array} \right ] \\ \text{} \\tr(A^TA)=a_{11}^2+a_{21}^2+a_{21}^2+a_{22}^2
A=[a11a21a12a22]ATA=[a11a12a21a22]⋅[a11a21a12a22]=[a112+a212⋅⋅a212+a222]tr(ATA)=a112+a212+a212+a222
除了一般定义的矩阵范数外,还有加权范数,加权 Frobenius范数 和 加权
l
2
l_2
l2 范数的定义分别为:
∥
A
∥
M
,
F
=
∥
M
A
M
∥
F
∥
A
∥
M
,
2
=
∥
M
A
M
∥
2
\Vert A \Vert_{M,F} = \Vert MAM \Vert_F\\ \Vert A \Vert_{M,2} = \Vert MAM \Vert_2
∥A∥M,F=∥MAM∥F∥A∥M,2=∥MAM∥2
其中,
M
M
M 是
n
×
n
n\times n
n×n 对称正定矩阵。
如果,某个范数
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 满足:
∥
A
B
∥
≤
∥
A
∥
∥
B
∥
(
1.2.10
)
\Vert AB \Vert \le \Vert A \Vert \Vert B \Vert \qquad(1.2.10)
∥AB∥≤∥A∥∥B∥(1.2.10)
则称范数
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 满足相容性条件
。容易看出,诱导p-范数和Frobenius范数满足相容性条件,并且有:
∥
A
B
∥
F
≤
min
{
∥
A
∥
2
∥
B
∥
F
,
∥
A
∥
F
∥
B
∥
2
}
(
1.2.10
a
)
\Vert AB\Vert_F \le \min\{\Vert A \Vert_2\Vert B \Vert_F,\Vert A \Vert_F\Vert B \Vert_2\}\qquad(1.2.10a)
∥AB∥F≤min{∥A∥2∥B∥F,∥A∥F∥B∥2}(1.2.10a)
此外,椭球向量范数也是常用的向量范数。设
x
∈
R
n
,
A
∈
R
n
×
n
x\in \mathbb R^n,A\in \mathbb R^{n\times n}
x∈Rn,A∈Rn×n 是对称正定矩阵,向量x的椭球范数定义为:
∥
x
∥
A
=
(
x
T
A
x
)
1
/
2
(
1.2.11
)
\Vert x \Vert_A=(x^T A x)^{1/2} \qquad(1.2.11)
∥x∥A=(xTAx)1/2(1.2.11)
直交变换下不变的矩阵范数也是一类重要的矩阵范数。设
U
U
U 为
n
n
n 阶直交矩阵,若:
∥
U
A
∥
=
∥
A
∥
\Vert UA \Vert = \Vert A \Vert
∥UA∥=∥A∥
则称范数
∥
⋅
∥
\Vert \cdot \Vert
∥⋅∥ 为直交不变矩阵范数。显然,谱范数和Frobenius范数是直交不变范数。
什么叫“直交变换”呢?好像就是“正交变换”,即矩阵乘以单位正交矩阵。也就是矩阵经过正交变换后,其谱范数和Frobenius范数保持不变,也称为保范性。
关于范数的等价性
,我们有:
定义1.2.2 设
∥
⋅
∥
α
\Vert \cdot \Vert_{\alpha}
∥⋅∥α 和
∥
⋅
∥
β
\Vert \cdot \Vert_{\beta}
∥⋅∥β 是
R
n
\mathbb R^n
Rn 上任意两个范数,如果存在
μ
1
,
μ
2
>
0
\mu_1, \mu_2 \gt 0
μ1,μ2>0,使得
μ
1
∥
x
∥
α
≤
∥
x
∥
β
≤
μ
2
∥
x
∥
α
,
∀
x
∈
R
n
(
1.2.12
)
\mu_1 \Vert x \Vert_{\alpha} \le \Vert x \Vert_{\beta} \le \mu_2 \Vert x \Vert_{\alpha}, \forall x \in \mathbb R^n \qquad(1.2.12)
μ1∥x∥α≤∥x∥β≤μ2∥x∥α,∀x∈Rn(1.2.12)
则称范数
∥
⋅
∥
α
\Vert \cdot \Vert_{\alpha}
∥⋅∥α 和
∥
⋅
∥
β
\Vert \cdot \Vert_{\beta}
∥⋅∥β 是等价
的。
特别,对于矢量
x
x
x 我们有:
∥
x
∥
2
≤
∥
x
∥
1
≤
n
∥
x
∥
2
(
1.2.13
)
∥
x
∥
∞
≤
∥
x
∥
2
≤
n
∥
x
∥
∞
(
1.2.14
)
∥
x
∥
∞
≤
∥
x
∥
1
≤
n
∥
x
∥
∞
(
1.2.15
)
∥
x
∥
∞
≤
∥
x
∥
2
≤
∥
x
∥
1
(
1.2.16
)
λ
∥
x
∥
2
≤
∥
x
∥
A
≤
Λ
∥
x
∥
2
(
1.2.17
)
\Vert x \Vert_2 \le \Vert x \Vert_1 \le \sqrt n\Vert x \Vert_2\qquad(1.2.13)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \sqrt n\Vert x \Vert_{\infty}\qquad(1.2.14)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_1 \le n\Vert x \Vert_{\infty}\qquad(1.2.15)\\ \Vert x \Vert_{\infty} \le \Vert x \Vert_2 \le \Vert x \Vert_1\qquad(1.2.16)\\ \sqrt \lambda \Vert x \Vert_2 \le \Vert x \Vert_A \le \sqrt \Lambda \Vert x \Vert_2\qquad(1.2.17)
∥x∥2≤∥x∥1≤n∥x∥2(1.2.13)∥x∥∞≤∥x∥2≤n∥x∥∞(1.2.14)∥x∥∞≤∥x∥1≤n∥x∥∞(1.2.15)∥x∥∞≤∥x∥2≤∥x∥1(1.2.16)λ∥x∥2≤∥x∥A≤Λ∥x∥2(1.2.17)
其中,
∥
x
∥
A
\Vert x \Vert_A
∥x∥A 表示
x
x
x 的椭球向量范数,
A
A
A 是对称正定矩阵,
λ
\lambda
λ 是它的最小特征值,
Λ
\Lambda
Λ 是它的最大特征值。
由以上不等式(1.2.13)~(1.2.17)是否可以说明这些范数定义是等价的呢?答案是肯定的。
设
{
x
k
}
\{ x_k\}
{xk} 是向量序列,如果:
lim
k
→
∞
∥
x
k
−
x
∗
∥
=
0
(
1.2.18
)
\lim_{k\to \infty} \Vert x_k - x^*\Vert = 0 \qquad(1.2.18)
k→∞lim∥xk−x∗∥=0(1.2.18)
则称序列
{
x
k
}
\{ x_k\}
{xk} 依范数收敛到
x
∗
x^*
x∗。
在
R
n
\mathbb R^n
Rn 中,如果序列
{
x
k
}
\{ x_k\}
{xk} 满足:
lim
m
,
l
→
∞
∥
x
m
−
x
l
∥
=
0
\lim_{m,l\to \infty} \Vert x_m - x_l\Vert = 0
m,l→∞lim∥xm−xl∥=0
则称序列
{
x
k
}
\{ x_k\}
{xk} 为Cauchy 序列。这就是说,对给定的
ϵ
>
0
\epsilon \gt 0
ϵ>0,存在整数
N
ϵ
N_{\epsilon}
Nϵ,使得每当
m
,
l
>
N
ϵ
m,l\gt N_{\epsilon}
m,l>Nϵ 时,就有:
∥
x
m
−
x
l
∥
<
ϵ
\Vert x_m - x_l\Vert\lt \epsilon
∥xm−xl∥<ϵ
成立。在
R
n
\mathbb R^n
Rn 中,序列
{
x
k
}
\{ x_k\}
{xk} 收敛,当且仅当
{
x
k
}
\{ x_k\}
{xk} 是Cauchy 序列。
关于范数的几个重要不等式
:
(1)Cauchy-Schwarz 不等式:
∣
x
T
y
∣
≤
∥
x
∥
∥
y
∥
\vert x^Ty \vert \le \Vert x \Vert \Vert y \Vert
∣xTy∣≤∥x∥∥y∥
当且仅当x和y线性相关时,等式成立。
(2)设
A
A
A 是
n
×
n
n \times n
n×n 正定矩阵,则:
∣
x
T
A
y
∣
≤
∥
x
∥
A
∥
y
∥
A
\vert x^T A y \vert \le \Vert x \Vert_A \Vert y \Vert_A
∣xTAy∣≤∥x∥A∥y∥A
当且仅当x和y线性相关时,等式成立。
(3)设
A
A
A 是
n
×
n
n \times n
n×n 正定矩阵,则:
∣
x
T
y
∣
≤
∥
x
∥
A
∥
y
∥
A
−
1
\vert x^T y \vert \le \Vert x \Vert_A \Vert y \Vert_{A^{-1}}
∣xTy∣≤∥x∥A∥y∥A−1
当且仅当x和
A
−
1
y
A^{-1}y
A−1y线性相关时,等式成立。
(4)Young不等式:假定 p 和 q 都是大于1的实数,
1
p
+
1
q
=
1
\frac{1}{p} + \frac{1}{q}=1
p1+q1=1,如果 x 和 y 是实数,则:
x
y
≤
x
p
p
+
y
q
q
xy\le \frac{x^p}{p} +\frac{y^q}{q}
xy≤pxp+qyq
当且仅当
x
p
=
y
q
x^p = y^q
xp=yq 时,等式成立。
(5)Holder不等式:
∣
x
T
y
∣
≤
∥
x
∥
p
∥
y
∥
q
=
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
+
(
∑
i
=
1
n
∣
y
i
∣
q
)
1
/
q
\vert x^Ty\vert \le \Vert x \Vert_p \Vert y \Vert_q = \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} +\left(\sum_{i=1}^n \vert y_i \vert^q\right)^{1/q}
∣xTy∣≤∥x∥p∥y∥q=(i=1∑n∣xi∣p)1/p+(i=1∑n∣yi∣q)1/q
其中,p和q都大于1,且满足
1
p
+
1
q
=
1
\frac{1}{p} + \frac{1}{q}=1
p1+q1=1。
(6)Minkowski不等式:
∥
x
+
y
∥
p
≤
∥
x
∥
p
+
∥
y
∥
p
即
(
∑
i
=
1
n
∣
x
i
+
y
i
∣
p
)
1
/
p
≤
(
∑
i
=
1
n
∣
x
i
∣
p
)
1
/
p
+
(
∑
i
=
1
n
∣
y
i
∣
p
)
1
/
p
\Vert x+y \Vert_p \le \Vert x \Vert_p + \Vert y \Vert_p \\ \text{ } \\ \text{即}\\ \text{ } \\ \left(\sum_{i=1}^n \vert x_i + y_i \vert^p\right)^{1/p} \le \left(\sum_{i=1}^n \vert x_i \vert^p\right)^{1/p} + \left(\sum_{i=1}^n \vert y_i \vert^p\right)^{1/p}
∥x+y∥p≤∥x∥p+∥y∥p 即 (i=1∑n∣xi+yi∣p)1/p≤(i=1∑n∣xi∣p)1/p+(i=1∑n∣yi∣p)1/p