前言
由于瑞利商在很多机器学习技术(PCA
、LDA
、谱聚类
等)中都有涉及,因此在此处专门记录一下瑞利商的性质证明及其极值的计算,以供自己后续复习及查阅之用。
一、瑞利商的定义及其性质
对于一个埃尔米特矩阵
M
M
M 及非零向量
x
x
x ,定义瑞利商:
R
(
M
,
x
)
=
x
∗
M
x
x
∗
x
R(M, x) = \frac{x^{*}Mx}{x^{*}x}
R(M,x)=x∗xx∗Mx
这里的
x
∗
x^∗
x∗ 是
x
x
x 的共轭转置矩阵,如果
M
M
M ,
x
x
x 都由实数元素组成,那么瑞利商可以写成:
R
(
M
,
x
)
=
x
T
M
x
x
T
x
R(M, x) = \frac{x^TMx}{x^Tx}
R(M,x)=xTxxTMx
设
M
M
M 的特征值与特征向量分别为
λ
1
,
λ
2
,
.
.
.
,
λ
n
λ_1, λ_2, ..., λ_n
λ1,λ2,...,λn ,
v
1
,
v
2
,
.
.
.
,
v
n
v_1, v_2, ..., v_n
v1,v2,...,vn ,并且有:
λ
m
i
n
=
λ
1
≤
λ
2
≤
.
.
.
≤
λ
n
=
λ
m
a
x
\lambda_{min} = \lambda_1 \leq \lambda_2 \leq ... \leq \lambda_n = \lambda_{max}
λmin=λ1≤λ2≤...≤λn=λmax
即瑞利商具有如下性质:
λ
m
i
n
≤
x
H
M
x
x
H
x
≤
λ
m
a
x
\lambda_{min} \leq \frac{x^HMx}{x^Hx} \leq \lambda_{max}
λmin≤xHxxHMx≤λmax
二、性质证明
下面将证明,在
M
M
M 确定的情况下:
max
x
R
(
M
,
x
)
=
λ
n
min
x
R
(
M
,
x
)
=
λ
1
\max_{x} R(M, x) = \lambda_n \\ \min_{x} R(M, x) = \lambda_1
xmaxR(M,x)=λnxminR(M,x)=λ1
由于
M
M
M 是一个埃尔米特矩阵,所以存在一个酉矩阵
U
U
U 满足:
M
=
U
A
U
T
M = UAU^T
M=UAUT
其中
A
=
d
i
a
g
(
λ
1
,
λ
2
,
.
.
.
,
λ
n
)
A=diag(λ_1, λ_2, ..., λ_n)
A=diag(λ1,λ2,...,λn) ,将上式代入瑞利商:
R
(
M
,
x
)
=
x
T
U
A
U
T
x
x
T
x
=
(
U
T
x
)
T
A
(
U
T
x
)
x
T
x
R(M, x) = \frac{x^TUAU^Tx}{x^Tx} = \frac{(U^Tx)^TA(U^Tx)}{x^Tx}
R(M,x)=xTxxTUAUTx=xTx(UTx)TA(UTx)
假设
p
=
U
T
x
p = U^Tx
p=UTx ,那么:
R
(
M
,
x
)
=
p
T
A
p
x
T
x
=
∑
i
=
1
n
λ
i
∣
p
i
∣
2
∑
i
=
1
n
∣
x
i
∣
2
R(M, x) = \frac{p^TAp}{x^Tx} = \frac{\sum_{i=1}^n \lambda_i |p_i|^2}{\sum_{i=1}^n |x_i|^2}
R(M,x)=xTxpTAp=∑i=1n∣xi∣2∑i=1nλi∣pi∣2
根据特征值的大小关系,可得如下不等式:
λ
1
∑
i
=
1
n
∣
p
i
∣
2
≤
∑
i
=
1
n
λ
i
∣
p
i
∣
2
≤
∑
i
=
1
n
λ
n
∣
p
i
∣
2
\lambda_1 \sum_{i=1}^n |p_i|^2 \leq \sum_{i=1}^n \lambda_i |p_i|^2 \leq \sum_{i=1}^n \lambda_n |p_i|^2
λ1i=1∑n∣pi∣2≤i=1∑nλi∣pi∣2≤i=1∑nλn∣pi∣2
于是有:
λ
1
∑
i
=
1
n
∣
p
i
∣
2
∑
i
=
1
n
∣
x
i
∣
2
≤
R
(
M
,
x
)
≤
λ
n
∑
i
=
1
n
∣
p
i
∣
2
∑
i
=
1
n
∣
x
i
∣
2
\frac{\lambda_1 \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2} \leq R(M, x) \leq \frac{\lambda_n \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2}
∑i=1n∣xi∣2λ1∑i=1n∣pi∣2≤R(M,x)≤∑i=1n∣xi∣2λn∑i=1n∣pi∣2
设
U
U
U 的第
i
i
i 行,第
j
j
j 列元素为
u
i
j
u_{ij}
uij ,
U
T
U^T
UT 的第
i
i
i 行,第
j
j
j 列元素为
u
j
i
u_{ji}
uji ,那么:
p
i
=
∑
j
=
1
n
u
j
i
x
j
p_i = \sum_{j=1}^n u_{ji}x_j
pi=j=1∑nujixj
p
i
T
=
∑
j
=
1
n
x
j
u
i
j
p_i^T = \sum_{j=1}^n x_ju_{ij}
piT=j=1∑nxjuij
∣
p
i
∣
2
=
p
i
T
p
i
=
∑
j
=
1
n
∑
k
=
1
n
x
j
u
i
j
u
k
i
x
k
|p_i|^2 = p_i^Tp_i = \sum_{j=1}^n \sum_{k=1}^n x_ju_{ij}u_{ki}x_k
∣pi∣2=piTpi=j=1∑nk=1∑nxjuijukixk
于是:
∑
i
=
1
n
∣
p
i
∣
2
=
∑
j
=
1
n
∑
k
=
1
n
(
∑
i
=
1
n
u
k
i
u
i
j
)
x
j
x
k
\sum_{i=1}^n |p_i|^2 = \sum_{j=1}^n \sum_{k=1}^n \bigg(\sum_{i=1}^n u_{ki}u_{ij}\bigg) x_jx_k
i=1∑n∣pi∣2=j=1∑nk=1∑n(i=1∑nukiuij)xjxk
由于
U
U
U 是酉矩阵,即:
U
T
U
=
I
U^TU = I
UTU=I
写成展开式形式为:
I
j
k
=
∑
i
=
1
n
u
j
i
u
i
k
I_{jk} = \sum_{i=1}^n u_{ji}u_{ik}
Ijk=i=1∑nujiuik
当
j
≠
k
j \neq k
j=k 时,
I
j
k
=
0
I_{jk} = 0
Ijk=0 ,当
j
=
k
j = k
j=k 时,
I
j
k
=
1
I_{jk} = 1
Ijk=1 ,所以可以得到:
∑
i
=
1
n
∣
p
i
∣
2
=
∑
i
=
1
n
∣
x
i
∣
2
\sum_{i=1}^n |p_i|^2 = \sum_{i=1}^n |x_i|^2
i=1∑n∣pi∣2=i=1∑n∣xi∣2
代入上述不等式,可得:
λ
1
≤
R
(
M
,
x
)
≤
λ
n
\lambda_1 \leq R(M, x) \leq \lambda_n
λ1≤R(M,x)≤λn
并且当
x
=
v
1
x=v_1
x=v1 时
R
(
M
,
x
)
=
λ
1
R(M, x) = λ_1
R(M,x)=λ1, 当
x
=
v
n
x=v_n
x=vn 时
R
(
M
,
x
)
=
λ
n
R(M,x)=λ_n
R(M,x)=λn。这就证明了前面的结论。
三、求解瑞利商的极值
如果我们用
x
′
=
c
x
x′=cx
x′=cx 来取代
x
x
x ,其中
c
c
c 为非零的实数,发现:
R
(
M
,
x
′
)
=
x
′
T
M
x
′
x
′
T
x
′
=
c
x
T
M
x
c
c
x
T
x
c
=
R
(
M
,
x
)
R(M, x') = \frac{x'^TMx'}{x'^Tx'} = \frac{cx^TMxc}{cx^Txc} = R(M, x)
R(M,x′)=x′Tx′x′TMx′=cxTxccxTMxc=R(M,x)
也就是说,对
x
x
x 进行等比例缩放并不会影响瑞利商的值,即:
R
(
M
,
c
x
)
=
R
(
M
,
x
)
R(M, cx) = R(M, x)
R(M,cx)=R(M,x)
于是,我们可以令
x
T
x
=
1
x^Tx=1
xTx=1 ,这样就有
R
(
M
,
x
)
=
x
T
M
x
R(M,x)=x^TMx
R(M,x)=xTMx 。此时对瑞利商求极值就是在约束
x
T
x
=
1
x^Tx=1
xTx=1 条件下,对
x
T
M
x
x^TMx
xTMx 求极值。下面使用拉格朗日乘子法来解,定义拉格朗日函数:
L
(
x
,
λ
)
=
x
T
M
x
−
λ
(
x
T
x
−
1
)
L(x, \lambda) = x^TMx - \lambda (x^Tx -1)
L(x,λ)=xTMx−λ(xTx−1)
对
x
x
x 求梯度,并令值为
0
0
0 :
∇
x
L
=
M
x
−
λ
x
=
0
\nabla_{x} L = Mx - \lambda x = 0
∇xL=Mx−λx=0
即
M
M
M 的特征值能使得瑞利商取得极值,并且
R
(
M
,
x
)
=
λ
R(M, x) = \lambda
R(M,x)=λ 。
瑞利商的另一种推广形式——广义瑞利商,在 Fisher
线性判别分析中有重要应用。定义:
R
(
M
,
x
,
Q
)
=
x
T
M
x
x
T
Q
x
R(M, x, Q) = \frac{x^TMx}{x^TQx}
R(M,x,Q)=xTQxxTMx
其中
Q
Q
Q 为对称正定矩阵,基于同样的理由,我们缩放
x
x
x 使得
x
T
Q
x
=
1
x^TQx=1
xTQx=1 ,然后利用拉格朗日乘子法求
x
T
M
x
x^TMx
xTMx 的极值,定义:
L
(
x
,
λ
)
=
x
T
M
x
−
λ
(
x
T
Q
x
−
1
)
L(x, \lambda) = x^TMx - \lambda (x^TQx -1)
L(x,λ)=xTMx−λ(xTQx−1)
然后求梯度取零得到驻点:
∇
x
L
=
M
x
−
λ
Q
x
=
0
\nabla_{x} L = Mx - \lambda Q x = 0
∇xL=Mx−λQx=0
⇔
M
x
=
λ
Q
x
\Leftrightarrow Mx = \lambda Q x
⇔Mx=λQx
⇔
Q
−
1
M
x
=
λ
x
\Leftrightarrow Q^{-1}Mx = \lambda x
⇔Q−1Mx=λx
也就是说,
R
(
M
,
x
,
Q
)
R(M,x,Q)
R(M,x,Q) 的极值在
Q
−
1
M
Q^{−1}M
Q−1M 的特征向量上取得,其极值就为
Q
−
1
M
Q^{−1}M
Q−1M 的特征值。
四、参考文献
① 瑞利商与极值计算