瑞利商及其极值的计算

最新推荐文章于 2023-02-11 09:19:55 发布

june_francis

最新推荐文章于 2023-02-11 09:19:55 发布

阅读量1.1w

点赞数 17

文章标签：机器学习

原文链接：https://seanwangjs.github.io/2017/11/27/rayleigh-quotient-maximum.html

版权

前言

由于瑞利商在很多机器学习技术（PCA、LDA、谱聚类等）中都有涉及，因此在此处专门记录一下瑞利商的性质证明及其极值的计算，以供自己后续复习及查阅之用。

一、瑞利商的定义及其性质

对于一个埃尔米特矩阵 $M$ 及非零向量 $x$ ，定义瑞利商：
$\frac{x^{*}Mx}{x^{*}x}$
这里的 $x^∗$ 是 $x$ 的共轭转置矩阵，如果 $M$ , $x$ 都由实数元素组成，那么瑞利商可以写成：
$\frac{x^TMx}{x^Tx}$
设 $M$ 的特征值与特征向量分别为 $λ_1, λ_2, ..., λ_n$ ， $v_1, v_2, ..., v_n$ ，并且有：
$\lambda_{min} = \lambda_1 \leq \lambda_2 \leq ... \leq \lambda_n = \lambda_{max}$
即瑞利商具有如下性质：
$\lambda_{min} \leq \frac{x^HMx}{x^Hx} \leq \lambda_{max}$

二、性质证明

下面将证明，在 $M$ 确定的情况下：
$\max_{x} R(M, x) = \lambda_n \\ \min_{x} R(M, x) = \lambda_1$
由于 $M$ 是一个埃尔米特矩阵，所以存在一个酉矩阵 $U$ 满足：
$M = UAU^T$
其中 $A=diag(λ_1, λ_2, ..., λ_n)$ ，将上式代入瑞利商：
$\frac{x^TUAU^Tx}{x^Tx} = \frac{(U^Tx)^TA(U^Tx)}{x^Tx}$
假设 $p = U^Tx$ ，那么：
$\frac{p^TAp}{x^Tx} = \frac{\sum_{i=1}^n \lambda_i |p_i|^2}{\sum_{i=1}^n |x_i|^2}$
根据特征值的大小关系，可得如下不等式：
$\lambda_1 \sum_{i=1}^n |p_i|^2 \leq \sum_{i=1}^n \lambda_i |p_i|^2 \leq \sum_{i=1}^n \lambda_n |p_i|^2$
于是有：
$\frac{\lambda_1 \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2} \leq R(M, x) \leq \frac{\lambda_n \sum_{i=1}^n |p_i|^2}{\sum_{i=1}^n |x_i|^2}$
设 $U$ 的第 $i$ 行，第 $j$ 列元素为 $u_{ij}$ ， $U^T$ 的第 $i$ 行，第 $j$ 列元素为 $u_{ji}$ ，那么：
$p_i = \sum_{j=1}^n u_{ji}x_j$
$p_i^T = \sum_{j=1}^n x_ju_{ij}$
$|p_i|^2 = p_i^Tp_i = \sum_{j=1}^n \sum_{k=1}^n x_ju_{ij}u_{ki}x_k$
于是：
$\sum_{i=1}^n |p_i|^2 = \sum_{j=1}^n \sum_{k=1}^n \bigg(\sum_{i=1}^n u_{ki}u_{ij}\bigg) x_jx_k$
由于 $U$ 是酉矩阵，即：
$U^TU = I$
写成展开式形式为：
$I_{jk} = \sum_{i=1}^n u_{ji}u_{ik}$
当 $\neq k$ 时， $I_{jk} = 0$ ，当 $j = k$ 时， $I_{jk} = 1$ ，所以可以得到：
$\sum_{i=1}^n |p_i|^2 = \sum_{i=1}^n |x_i|^2$
代入上述不等式，可得：
$\lambda_1 \leq R(M, x) \leq \lambda_n$
并且当 $x=v_1$ 时 $R(M, x) = λ_1$ ，当 $x=v_n$ 时 $R(M,x)=λ_n$ 。这就证明了前面的结论。

三、求解瑞利商的极值

如果我们用 $x' = c x$ 来取代 $x$ ，其中 $c$ 为非零的实数，发现：
$\frac{x'^TMx'}{x'^Tx'} = \frac{cx^TMxc}{cx^Txc} = R(M, x)$
也就是说，对 $x$ 进行等比例缩放并不会影响瑞利商的值，即：
$R (M, c x) = R (M, x)$
于是，我们可以令 $x^Tx=1$ ，这样就有 $R(M,x)=x^TMx$ 。此时对瑞利商求极值就是在约束 $x^Tx=1$ 条件下，对 $x^TMx$ 求极值。下面使用拉格朗日乘子法来解，定义拉格朗日函数：
$\lambda) = x^TMx - \lambda (x^Tx -1)$
对 $x$ 求梯度，并令值为 $0$ ：
$\nabla_{x} L = Mx - \lambda x = 0$
即 $M$ 的特征值能使得瑞利商取得极值，并且 $\lambda$ 。
瑞利商的另一种推广形式——广义瑞利商，在 Fisher 线性判别分析中有重要应用。定义：
$\frac{x^TMx}{x^TQx}$
其中 $Q$ 为对称正定矩阵，基于同样的理由，我们缩放 $x$ 使得 $x^TQx=1$ ，然后利用拉格朗日乘子法求 $x^TMx$ 的极值，定义：
$\lambda) = x^TMx - \lambda (x^TQx -1)$
然后求梯度取零得到驻点：
$\nabla_{x} L = Mx - \lambda Q x = 0$
$\Leftrightarrow Mx = \lambda Q x$
$\Leftrightarrow Q^{-1}Mx = \lambda x$
也就是说， $R (M, x, Q)$ 的极值在 $Q^{−1}M$ 的特征向量上取得，其极值就为 $Q^{−1}M$ 的特征值。

四、参考文献

① 瑞利商与极值计算