瑞丽熵 (Rayleigh quotient) 两种启发式证明

瑞丽熵定义如下:

R ( A , x ) = x ∗ A x x ∗ x R(A, x)=\frac{x^{*} A x}{x^{*} x} R(A,x)=xxxAx
其中矩阵 A A A n × n n \times n n×n的对称矩阵(Hermitian)。

有:
max ⁡ x ≠ 0 x H A x x H x = max ⁡ x H x = 1 x H A x x H x = λ m a x min ⁡ x ≠ 0 x H A x x H x = min ⁡ x H x = 1 x H A x x H x = λ m i n \begin{aligned} &\max _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\max _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\boldsymbol{\lambda}_{\mathrm{max}}\\ &\min _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\min _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\lambda_{\mathrm{min}} \end{aligned} x=0maxxHxxHAx=xHx=1maxxHxxHAx=λmaxx=0minxHxxHAx=xHx=1minxHxxHAx=λmin

证明1:

因为 A A A为对称矩阵,可特征分解为 A = V T Σ V A= V^T\Sigma V A=VTΣV V = [ v 1 , . . . , v n ] V = [v_1,..., v_n] V=[v1,...,vn], Σ = d i a g ( λ 1 , . . . , λ n ) \Sigma=\mathrm{diag}(\lambda_1,...,\lambda_n) Σ=diag(λ1,...,λn)。不妨设 λ 1 ≥ λ 2 ≥ . . . ≥ λ n \lambda1 \ge \lambda_2 \ge ...\ge \lambda_n λ1λ2...λn

对原式进行如下展开。可得

R ( A , x ) = x ∗ A x x ∗ x = ∑ i = 1 n λ i y i 2 ∑ i = 1 n y i 2 R(A, x)=\frac{x^{*} A x}{x^{*} x}=\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}} R(A,x)=xxxAx=i=1nyi2i=1nλiyi2

显然有:
λ 1 = ∑ i = 1 n λ 1 y i 2 ∑ i = 1 n y i 2 ≤ ∑ i = 1 n λ i y i 2 ∑ i = 1 n y i 2 ≤ ∑ i = 1 n λ n y i 2 ∑ i = 1 n y i 2 = λ n \lambda_1 = \frac{\sum_{i=1}^{n} \lambda_{1} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{n} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}=\lambda_n λ1=i=1nyi2i=1nλ1yi2i=1nyi2i=1nλiyi2i=1nyi2i=1nλnyi2=λn

得证。
同时: 当且仅当 y 1 = 0 , . . . y n − 1 = 0 y_1=0,...y_{n-1}=0 y1=0,...yn1=0成立时,等号成立,取到最大值。 因此,当 x x x A A A的最大特征向量时,瑞丽商最大,为最大特征值。

证明2:

易见,我们可以引入一个限制条件而不影响瑞丽商的结果: x T x = 1 x^Tx=1 xTx=1

将这个限制条件用拉格朗日乘子法加入目标函数,有:

L = R ( A , x ) + λ ( x T x − 1 ) = x T A x + λ ( x T x − 1 ) L = R(A, x) + \lambda (x^{T}x-1) = x^{T} A x+ \lambda (x^{T}x-1) L=R(A,x)+λ(xTx1)=xTAx+λ(xTx1).

x x x求导,有 A x + λ x = 0 Ax+\lambda x=0 Ax+λx=0时取到极值。 那么显然, x x x A A A的特征向量(特征分解的定义)。注意这里的 λ \lambda λ是拉格朗日乘子,而不是特征值。

由此,可知 x x x A A A的特征向量后, x T A x x^{T} A x xTAx的结果就是对应的特征值。
证毕。

拓展

X \mathrm{X} X为矩阵时
求解R的最值:
R ( A , X ) = t r ( X T A X ( X T X ) − 1 ) R(A, \mathrm{X})=\mathrm{tr}({\mathrm{X}^{T} A \mathrm{X}}({\mathrm{X}^{T} \mathrm{X}})^{-1}) R(A,X=tr(XTAX(XTX)1)

X = U Σ V T \mathbf{X}=U\Sigma V^T X=UΣVT为特征值分解。

R = tr ⁡ ( V ∑ T U A U T ∑ V T ( V Σ T Σ V T ) − 1 ) = tr ⁡ ( ∑ T U A U T Σ ( Σ T Σ ) − 1 ) = tr ⁡ ( U A U T [ I 0 ] [ I 0 ] ) = tr ⁡ ( Q T A Q ) Q = U T [ I 0 ] \begin{aligned} &R=\operatorname{tr}\left(\mathrm{V} \sum^{T} U A U^{T} \sum V^{T}\left(V \Sigma^{T} \Sigma V^{T}\right)^{-1}\right)\\ &=\operatorname{tr}\left(\sum^{T} U A U^{T} \Sigma\left(\Sigma^{T} \Sigma\right)^{-1}\right)\\ &=\operatorname{tr}\left(U A U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right]\left[\begin{array}{ll} {I} & {0} \end{array}\right]\right)\\ &=\operatorname{tr}\left(Q^{T} A Q\right)\\ &Q=U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right] \end{aligned} R=tr(VTUAUTVT(VΣTΣVT)1)=tr(TUAUTΣ(ΣTΣ)1)=tr(UAUT[I0][I0])=tr(QTAQ)Q=UT[I0]

这说明,我们可以直接优化最后的式子 tr ⁡ ( Q T A Q ) \operatorname{tr}\left(Q^{T} A Q\right) tr(QTAQ)。显然 Q T Q = I Q^TQ=I QTQ=I。因此,对比R的原始式子,我们可以从一开始就增加限制条件, X T X = I X^TX=I XTX=I

而对于
max ⁡ X    t r ( X T A X )  s.t.  X T X = I \begin{aligned} \max_{X} &\;\mathrm{tr}(X^TAX)\\ \text { s.t. } & X^TX=I \end{aligned} Xmax s.t. tr(XTAX)XTX=I
有一个巧妙的启发式证明 max ⁡ t r ( X T A X ) = ∑ λ i \max \mathrm{tr}(X^TAX) = \sum \lambda_i maxtr(XTAX)=λi, 其中 λ i \lambda_i λi 代表 A A A 的第 i i i 大特征向量。 首先, 当 X X X 的每列分别为 A A A最大的几个特征向量时, t r ( X T A X ) = ∑ λ i \mathrm{tr}(X^TAX) = \sum \lambda_i tr(XTAX)=λi。 因此 max ⁡ t r ( X T A X ) ≥ ∑ λ i \max \mathrm{tr}(X^TAX)\ge \sum \lambda_i maxtr(XTAX)λi。 然后根据定理:
t r ( X T A X ) ≤ A = ∑ λ i \mathrm{tr}(X^TAX)\le \mathrm{A}=\sum\lambda_i tr(XTAX)A=λi
得到上界。 结合可知:
max ⁡ t r ( X T A X ) = ∑ λ i \max \mathrm{tr}(X^TAX) = \sum \lambda_i maxtr(XTAX)=λi

定理是如何证明的呢?
t r ( X T A X ) = t r ( X X T A ) = t r ( ( I N s 0 ) K T A K ) ≤ t r ( K T A K ) = t r ( A ) \mathrm{tr}(X^TAX)=\mathrm{tr}(XX^TA)=\mathrm{tr}(\left(\begin{array}{cc} \mathbf{I}_{N_{s}} & \\ & 0 \end{array}\right){K}^{T} A {K})\le \mathrm{tr}(K^TAK)=\mathrm{tr}(A) tr(XTAX)=tr(XXTA)=tr((INs0)KTAK)tr(KTAK)=tr(A)

其中利用了 X X T = K ( I N s 0 ) K T XX^T=K\left(\begin{array}{cc} \mathbf{I}_{N_{s}} & \\ & 0 \end{array}\right){K}^{T} XXT=K(INs0)KT的EVD分解。 (因为 X X T = I XX^T=I XXT=I)。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

B417科研笔记

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值