瑞丽熵 (Rayleigh quotient) 两种启发式证明

最新推荐文章于 2024-01-01 14:20:34 发布

B417科研笔记

最新推荐文章于 2024-01-01 14:20:34 发布

阅读量5k

点赞数 8

分类专栏：通信中的常用数学数学推导文章标签：通信 5G 智能反射面

本文链接：https://blog.csdn.net/weixin_39274659/article/details/103818469

版权

通信中的常用数学同时被 2 个专栏收录

48 篇文章

订阅专栏

数学推导

19 篇文章

订阅专栏

瑞丽熵定义如下：

$x)=\frac{x^{*} A x}{x^{*} x}$
其中矩阵 $A$ 为 $\times n$ 的对称矩阵（Hermitian)。

有：
$\begin{aligned} &\max _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\max _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\boldsymbol{\lambda}_{\mathrm{max}}\\ &\min _{\boldsymbol{x} \neq 0} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\min _{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}=1} \frac{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{A} \boldsymbol{x}}{\boldsymbol{x}^{\mathrm{H}} \boldsymbol{x}}=\lambda_{\mathrm{min}} \end{aligned}$

证明1：

因为 $A$ 为对称矩阵，可特征分解为 $V^T\Sigma V$ 。 $V = [v_1,..., v_n]$ , $\Sigma=\mathrm{diag}(\lambda_1,...,\lambda_n)$ 。不妨设 $\lambda1 \ge \lambda_2 \ge ...\ge \lambda_n$ 。

对原式进行如下展开。可得

$x)=\frac{x^{*} A x}{x^{*} x}=\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}$

显然有：
$\lambda_1 = \frac{\sum_{i=1}^{n} \lambda_{1} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{i} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}\le\frac{\sum_{i=1}^{n} \lambda_{n} y_{i}^{2}}{\sum_{i=1}^{n} y_{i}^{2}}=\lambda_n$

得证。
同时： 当且仅当 $y_1=0,...y_{n-1}=0$ 成立时，等号成立，取到最大值。因此，当 $x$ 为 $A$ 的最大特征向量时，瑞丽商最大，为最大特征值。

证明2：

易见，我们可以引入一个限制条件而不影响瑞丽商的结果： $x^Tx=1$

将这个限制条件用拉格朗日乘子法加入目标函数，有：

$\lambda (x^{T}x-1) = x^{T} A x+ \lambda (x^{T}x-1)$ .

对 $x$ 求导，有 $Ax+\lambda x=0$ 时取到极值。那么显然， $x$ 为 $A$ 的特征向量（特征分解的定义）。注意这里的 $\lambda$ 是拉格朗日乘子，而不是特征值。

由此，可知 $x$ 为 $A$ 的特征向量后， $x^{T} A x$ 的结果就是对应的特征值。
证毕。

拓展

$\mathrm{X}$ 为矩阵时
求解R的最值：
$\mathrm{X}）=\mathrm{tr}({\mathrm{X}^{T} A \mathrm{X}}({\mathrm{X}^{T} \mathrm{X}})^{-1})$

令 $\mathbf{X}=U\Sigma V^T$ 为特征值分解。

$\begin{aligned} &R=\operatorname{tr}\left(\mathrm{V} \sum^{T} U A U^{T} \sum V^{T}\left(V \Sigma^{T} \Sigma V^{T}\right)^{-1}\right)\\ &=\operatorname{tr}\left(\sum^{T} U A U^{T} \Sigma\left(\Sigma^{T} \Sigma\right)^{-1}\right)\\ &=\operatorname{tr}\left(U A U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right]\left[\begin{array}{ll} {I} & {0} \end{array}\right]\right)\\ &=\operatorname{tr}\left(Q^{T} A Q\right)\\ &Q=U^{T}\left[\begin{array}{l} {I} \\ {0} \end{array}\right] \end{aligned}$

这说明，我们可以直接优化最后的式子 $\operatorname{tr}\left(Q^{T} A Q\right)$ 。显然 $Q^TQ=I$ 。因此，对比R的原始式子，我们可以从一开始就增加限制条件， $X^TX=I$ 。

而对于
$\begin{aligned} \max_{X} &\;\mathrm{tr}(X^TAX)\\ \text { s.t. } & X^TX=I \end{aligned}$
有一个巧妙的启发式证明 $\max \mathrm{tr}(X^TAX) = \sum \lambda_i$ , 其中 $\lambda_i$ 代表 $A$ 的第 $i$ 大特征向量。首先，当 $X$ 的每列分别为 $A$ 最大的几个特征向量时， $\mathrm{tr}(X^TAX) = \sum \lambda_i$ 。因此 $\max \mathrm{tr}(X^TAX)\ge \sum \lambda_i$ 。然后根据定理：
$\mathrm{tr}(X^TAX)\le \mathrm{A}=\sum\lambda_i$
得到上界。结合可知：
$\max \mathrm{tr}(X^TAX) = \sum \lambda_i$

定理是如何证明的呢？
$\mathrm{tr}(X^TAX)=\mathrm{tr}(XX^TA)=\mathrm{tr}(\left(\begin{array}{cc} \mathbf{I}_{N_{s}} & \\ & 0 \end{array}\right){K}^{T} A {K})\le \mathrm{tr}(K^TAK)=\mathrm{tr}(A)$