瑞利商及其极值的计算

前言

由于瑞利商在很多机器学习技术(PCALDA谱聚类等)中都有涉及,因此在此处专门记录一下瑞利商的性质证明及其极值的计算,以供自己后续复习及查阅之用。

一、瑞利商的定义及其性质

对于一个埃尔米特矩阵 M M M非零向量 x x x ,定义瑞利商:
R ( M , x ) = x ∗ M x x ∗ x R(M, x) = \frac{x^{*}Mx}{x^{*}x} R(M,x)=xxxMx
这里的 x ∗ x^∗ x x x x共轭转置矩阵,如果 M M M , x x x 都由实数元素组成,那么瑞利商可以写成:
R ( M , x ) = x T M x x T x R(M, x) = \frac{x^TMx}{x^Tx} R(M,x)=xTxxTMx
M M M 的特征值与特征向量分别为 λ 1 , λ 2 , . . . , λ n λ_1, λ_2, ..., λ_n λ1,λ2,...,λn v 1 , v 2 , . . . , v n v_1, v_2, ..., v_n v1,v2,...,vn ,并且有:
λ m i n = λ 1 ≤ λ 2 ≤ . . . ≤ λ n = λ m a x \lambda_{min} = \lambda_1 \leq \lambda_2 \leq ... \leq \lambda_n = \lambda_{max} λmin=λ1λ2...λn=λmax
即瑞利商具有如下性质:
λ m i n ≤ x H M x x H x ≤ λ m a x \lambda_{min} \leq \frac{x^HMx}{x^Hx} \leq \lambda_{max} λminxHxxHMxλmax

二、性质证明

下面将证明,在 M M M 确定的情况下:
max ⁡ x R ( M , x ) = λ n min ⁡ x R ( M , x ) = λ 1 \max_{x} R(M, x) = \lambda_n \\ \min_{x} R(M, x) = \lambda_1 xmaxR(M,x)=λnxminR(M,x)=λ1
由于 M M M 是一个埃尔米特矩阵,所以存在一个酉矩阵 U U U 满足:
M = U A U T M = UAU^T M=UAUT
其中 A = d i a g ( λ 1 , λ 2 , . . . , λ n ) A=diag(λ_1, λ_2, ..., λ_n) A=diag(λ1,λ2,...,λn) ,将上式代入瑞利商:
R ( M , x ) = x T U A U T x x T x = ( U T x ) T A ( U T x ) x T x R(M, x) = \frac{x^TUAU^Tx}{x^Tx} = \frac{(U^Tx)^TA(U^Tx)}{x^Tx} R(M,x)=xTxxTUAUTx=xTx(UTx)TA(UTx)
假设 p = U T x p = U^Tx p=UTx ,那么:
R ( M , x ) = p T A p x T x = ∑ i = 1 n λ i ∣ p i ∣ 2 ∑ i = 1 n ∣ x i ∣ 2 R(M, x) = \frac{p^TAp}{x^Tx} = \frac{\sum_{i=1}^n \lambda_i |p_i|^2}{\sum_{i=1}^n |x_i|^2} R(M,x)=xTxpTAp=i=1nxi2i=1nλipi2
根据特征值的大小关系,可得如下不等式:
λ 1 ∑ i = 1 n ∣ p i ∣ 2 ≤ ∑ i = 1 n λ i ∣ p i ∣ 2 ≤ ∑ i = 1 n λ n ∣ p i ∣ 2 \lambda_1 \sum_{i=1}^n |p_i|^2 \leq \sum_{i=1}^n \lambda_i |p_i|^2 \leq \sum_{i=1}^n \lambda_n |p_i|^2 λ1i=1npi2i=1nλipi2i=1nλnpi2
于是有:
λ 1 ∑ i = 1 n ∣ p i ∣ 2 ∑ i = 1 n ∣ x i ∣ 2 ≤ R ( M , x ) ≤ λ n ∑ i = 1 n ∣ p i ∣ 2 ∑ i = 1 n ∣ x i ∣ 2 \frac{\lambda_1 \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2} \leq R(M, x) \leq \frac{\lambda_n \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2} i=1nxi2λ1i=1npi2R(M,x)i=1nxi2λni=1npi2
U U U 的第 i i i 行,第 j j j 列元素为 u i j u_{ij} uij U T U^T UT 的第 i i i 行,第 j j j 列元素为 u j i u_{ji} uji ,那么:
p i = ∑ j = 1 n u j i x j p_i = \sum_{j=1}^n u_{ji}x_j pi=j=1nujixj
p i T = ∑ j = 1 n x j u i j p_i^T = \sum_{j=1}^n x_ju_{ij} piT=j=1nxjuij
∣ p i ∣ 2 = p i T p i = ∑ j = 1 n ∑ k = 1 n x j u i j u k i x k |p_i|^2 = p_i^Tp_i = \sum_{j=1}^n \sum_{k=1}^n x_ju_{ij}u_{ki}x_k pi2=piTpi=j=1nk=1nxjuijukixk
于是:
∑ i = 1 n ∣ p i ∣ 2 = ∑ j = 1 n ∑ k = 1 n ( ∑ i = 1 n u k i u i j ) x j x k \sum_{i=1}^n |p_i|^2 = \sum_{j=1}^n \sum_{k=1}^n \bigg(\sum_{i=1}^n u_{ki}u_{ij}\bigg) x_jx_k i=1npi2=j=1nk=1n(i=1nukiuij)xjxk
由于 U U U 是酉矩阵,即:
U T U = I U^TU = I UTU=I
写成展开式形式为:
I j k = ∑ i = 1 n u j i u i k I_{jk} = \sum_{i=1}^n u_{ji}u_{ik} Ijk=i=1nujiuik
j ≠ k j \neq k j=k 时, I j k = 0 I_{jk} = 0 Ijk=0 ,当 j = k j = k j=k 时, I j k = 1 I_{jk} = 1 Ijk=1 ,所以可以得到:
∑ i = 1 n ∣ p i ∣ 2 = ∑ i = 1 n ∣ x i ∣ 2 \sum_{i=1}^n |p_i|^2 = \sum_{i=1}^n |x_i|^2 i=1npi2=i=1nxi2
代入上述不等式,可得:
λ 1 ≤ R ( M , x ) ≤ λ n \lambda_1 \leq R(M, x) \leq \lambda_n λ1R(M,x)λn
并且当 x = v 1 x=v_1 x=v1 R ( M , x ) = λ 1 R(M, x) = λ_1 R(M,x)=λ1, 当 x = v n x=v_n x=vn R ( M , x ) = λ n R(M,x)=λ_n R(M,x)=λn。这就证明了前面的结论。

三、求解瑞利商的极值

如果我们用 x ′ = c x x′=cx x=cx 来取代 x x x ,其中 c c c 为非零的实数,发现:
R ( M , x ′ ) = x ′ T M x ′ x ′ T x ′ = c x T M x c c x T x c = R ( M , x ) R(M, x') = \frac{x'^TMx'}{x'^Tx'} = \frac{cx^TMxc}{cx^Txc} = R(M, x) R(M,x)=xTxxTMx=cxTxccxTMxc=R(M,x)
也就是说, x x x 进行等比例缩放并不会影响瑞利商的值,即:
R ( M , c x ) = R ( M , x ) R(M, cx) = R(M, x) R(M,cx)=R(M,x)
于是,我们可以令 x T x = 1 x^Tx=1 xTx=1 ,这样就有 R ( M , x ) = x T M x R(M,x)=x^TMx R(M,x)=xTMx 。此时对瑞利商求极值就是在约束 x T x = 1 x^Tx=1 xTx=1 条件下,对 x T M x x^TMx xTMx 求极值。下面使用拉格朗日乘子法来解,定义拉格朗日函数:
L ( x , λ ) = x T M x − λ ( x T x − 1 ) L(x, \lambda) = x^TMx - \lambda (x^Tx -1) L(x,λ)=xTMxλ(xTx1)
x x x 求梯度,并令值为 0 0 0
∇ x L = M x − λ x = 0 \nabla_{x} L = Mx - \lambda x = 0 xL=Mxλx=0
M M M 的特征值能使得瑞利商取得极值,并且 R ( M , x ) = λ R(M, x) = \lambda R(M,x)=λ
瑞利商的另一种推广形式——广义瑞利商,在 Fisher 线性判别分析中有重要应用。定义:
R ( M , x , Q ) = x T M x x T Q x R(M, x, Q) = \frac{x^TMx}{x^TQx} R(M,x,Q)=xTQxxTMx
其中 Q Q Q 为对称正定矩阵,基于同样的理由,我们缩放 x x x 使得 x T Q x = 1 x^TQx=1 xTQx=1 ,然后利用拉格朗日乘子法求 x T M x x^TMx xTMx 的极值,定义:
L ( x , λ ) = x T M x − λ ( x T Q x − 1 ) L(x, \lambda) = x^TMx - \lambda (x^TQx -1) L(x,λ)=xTMxλ(xTQx1)
然后求梯度取零得到驻点:
∇ x L = M x − λ Q x = 0 \nabla_{x} L = Mx - \lambda Q x = 0 xL=MxλQx=0
⇔ M x = λ Q x \Leftrightarrow Mx = \lambda Q x Mx=λQx
⇔ Q − 1 M x = λ x \Leftrightarrow Q^{-1}Mx = \lambda x Q1Mx=λx
也就是说, R ( M , x , Q ) R(M,x,Q) R(M,x,Q) 的极值在 Q − 1 M Q^{−1}M Q1M 的特征向量上取得,其极值就为 Q − 1 M Q^{−1}M Q1M 的特征值。

四、参考文献

瑞利商与极值计算

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值