一、范数
1.1 向量范数
- 定义:满足正定、齐次、三角不等式,则称从向量空间到实数域的非负函数的范数
- l p l_p lp范数: ∣ ∣ v ∣ ∣ p = ( ∣ v 1 ∣ p + ∣ v 2 ∣ p + . . . + ∣ v n ∣ p ) 1 p ||v||_p=(|v_1|^p+|v_2|^p+...+|v_n|^p)^{\frac{1}{p}} ∣∣v∣∣p=(∣v1∣p+∣v2∣p+...+∣vn∣p)p1
- l ∞ 范 数 l_{\infty}范数 l∞范数: ∣ ∣ v ∣ ∣ ∞ = m a x ( ∣ v i ∣ ) ||v||_{\infty}=max(|v_i|) ∣∣v∣∣∞=max(∣vi∣)
1.2 矩阵范数
-
l
2
范
数
,
F
范
数
l_2范数,F范数
l2范数,F范数:
∣
∣
A
∣
∣
F
=
T
r
(
A
A
T
)
=
∑
a
i
j
2
||A||_F=\sqrt{Tr(AA^T)}=\sqrt{\sum{a_{ij}^2}}
∣∣A∣∣F=Tr(AAT)=∑aij2
- 正交不变性:
∣
∣
U
A
V
∣
∣
F
2
=
T
r
(
U
A
V
V
T
A
T
U
T
)
=
T
r
(
U
A
A
T
U
T
)
=
T
r
(
A
A
T
U
T
U
)
=
T
r
(
A
A
T
)
=
∣
∣
A
∣
∣
F
2
||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2
∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2。
- U ∈ R m × m 、 V ∈ R n × n U\in R^{m×m}、V\in R^{n×n} U∈Rm×m、V∈Rn×n是正交矩阵
- T r ( X ) = ∑ a i i Tr(X)=\sum{a_{ii}} Tr(X)=∑aii,矩阵的迹,对角线的和。
- 正交不变性:
∣
∣
U
A
V
∣
∣
F
2
=
T
r
(
U
A
V
V
T
A
T
U
T
)
=
T
r
(
U
A
A
T
U
T
)
=
T
r
(
A
A
T
U
T
U
)
=
T
r
(
A
A
T
)
=
∣
∣
A
∣
∣
F
2
||UAV||_F^2=Tr(UAVV^TA^TU^T)=Tr(UAA^TU^T)=Tr(AA^TU^TU)=Tr(AA^T)=||A||_F^2
∣∣UAV∣∣F2=Tr(UAVVTATUT)=Tr(UAATUT)=Tr(AATUTU)=Tr(AAT)=∣∣A∣∣F2。
- 核范数:
A
∈
R
m
×
n
,
∣
∣
A
∣
∣
∗
=
∑
i
=
1
r
σ
i
A\in R^{m×n},||A||_*=\sum_{i=1}^{r}{\sigma_i}
A∈Rm×n,∣∣A∣∣∗=∑i=1rσi
- σ i 为 A 的 所 有 非 零 奇 异 值 , r = r a n k ( A ) \sigma_i 为A的所有非零奇异值,r=rank(A) σi为A的所有非零奇异值,r=rank(A)
- 奇异值:设A为 m ∗ n m*n m∗n阶矩阵, q = m i n ( m , n ) q=min(m,n) q=min(m,n), A ∗ A A*A A∗A的q个非负特征值的算术平方根叫作A的奇异值。
1.3 矩阵内积
- Frobenius内积:常用来表示两个矩阵(张成的空间)之间的夹角
- 定义: < A , B > = d e f T r ( A B T ) = ∑ ∑ a i j b i j <A,B>\overset{def}{=}Tr(AB^T)=\sum\sum{a_{ij}b_{ij}} <A,B>=defTr(ABT)=∑∑aijbij
二、导数
2.1 梯度、海瑟矩阵
- 梯度:
lim
p
→
0
f
(
x
+
p
)
−
f
(
x
)
−
g
T
p
∣
∣
p
∣
∣
=
0
\underset{p\rightarrow 0}{\lim}\frac{f(x+p)-f(x)-g^Tp}{||p||}=0
p→0lim∣∣p∣∣f(x+p)−f(x)−gTp=0
- ∣ ∣ ⋅ ∣ ∣ ||·|| ∣∣⋅∣∣是任意向量范数,g为 f f f在x点处的梯度
- 海瑟矩阵:
f
(
x
)
:
R
n
→
R
f(x):R^n\rightarrow R
f(x):Rn→R
- 二阶可微: ∇ 2 f ( x ) \nabla^2f(x) ∇2f(x)在区域D上的每个点x都存在
- 二阶连续可微: ∇ 2 f ( x ) \nabla^2f(x) ∇2f(x)在D上还连续,可以证明此时海瑟矩阵还是对称矩阵。
- 雅克比矩阵
J
(
x
)
J(x)
J(x),
f
:
R
n
→
R
m
f:R^n\rightarrow R^m
f:Rn→Rm是向量值函数
- 梯度利普希茨连续:
- 可微函数 f f f,若存在 L > 0 L>0 L>0,对任意 x , y ∈ d o m f x,y\in domf x,y∈domf有 ∣ ∣ ∇ f ( x ) − ∇ f ( y ) ∣ ∣ ≤ L ∣ ∣ x − y ∣ ∣ ||\nabla f(x)-\nabla f(y)||\leq L||x-y|| ∣∣∇f(x)−∇f(y)∣∣≤L∣∣x−y∣∣,称 f f f是梯度利普希茨连续的, L L L为相应的函数,称为 L − 光 滑 L-光滑 L−光滑
- 二次上界: f ( x ) 可 微 , 且 为 L − 光 滑 , 则 f ( x ) 有 二 次 上 界 : f ( y ) ≤ f ( x ) + ∇ f ( x ) T ( y − x ) + L 2 ∣ ∣ y − x ∣ ∣ 2 f(x)可微,且为L-光滑,则f(x)有二次上界:f(y)\leq f(x)+\nabla f(x)^T(y-x)+\frac{L}{2}||y-x||^2 f(x)可微,且为L−光滑,则f(x)有二次上界:f(y)≤f(x)+∇f(x)T(y−x)+2L∣∣y−x∣∣2
- f ( x ) 可 微 , 存 在 全 局 极 小 点 x ∗ , 且 f ( x ) 为 L − 利 普 希 茨 连 续 f(x)可微,存在全局极小点x^*,且f(x)为L-利普希茨连续 f(x)可微,存在全局极小点x∗,且f(x)为L−利普希茨连续则: 1 2 L ∣ ∣ ∇ f ( x ) ∣ ∣ 2 ≤ f ( x ) − f ( x ∗ ) \frac{1}{2L}||\nabla f(x)||^2\leq f(x)-f(x^*) 2L1∣∣∇f(x)∣∣2≤f(x)−f(x∗)
2.2矩阵变量的导数
- Gâteaux可微:
t
→
0
l
i
m
f
(
X
+
t
V
)
−
f
(
X
)
−
t
<
G
,
V
>
t
=
0
\overset{lim}{t\rightarrow0}\frac{f(X+tV)-f(X)-t<G,V>}{t}=0
t→0limtf(X+tV)−f(X)−t<G,V>=0
- G , V ∈ R m × n G,V\in R^{m×n} G,V∈Rm×n
2.3自动微分
- 链式法则