瑞利商（Rayleigh Quotient）及瑞利定理（Rayleigh-Ritz theorem）的证明

最新推荐文章于 2025-03-23 22:48:17 发布

klcola

最新推荐文章于 2025-03-23 22:48:17 发布

阅读量3.1w

点赞数 27

分类专栏：数学文章标签：线性代数矩阵算法机器学习

本文链接：https://blog.csdn.net/klcola/article/details/104800804

版权

数学专栏收录该内容

7 篇文章

订阅专栏

注数学系列为本人学习笔记，水平有限，错误在所难免，请读者不吝指正。

证明主体部分来自下面的链接。
https://www.planetmath.org/RayleighRitzTheorem

先来看几个基本概念

复平面（Complex Plane）

考虑形如 $a + b i$ 的复数，该数代表复平面上的一个点。复平面中 $x$ 轴代表实数部分， $y$ 轴代表虚数部分，这样 $a + b i$ 在复平面上就代表坐标为 $(a, b)$ 的一个点。复数 $a + b i$ 也可以看作在复平面上以原点 $(0, 0)$ 为出发点，以 $(a, b)$ 为终点的向量。这样，对于复数的加减就相当于对复平面上的向量进行加减。

复共轭（complex conjugate） 定义复数 $z = a + b i$ 的共轭 $z^*$ 为 $z^* = a - bi$ 。

两个有用的公式
$z^*_1 \times z^*_2 = (z_1 \times z_2)^* \tag{1}$ $z^*_1 + z^*_2 = (z_1 + z_2)^* \tag{2}$ 例如， $z_1 = 3 + 2i$ ， $z_2 = 1 - i$ ，则 $z^*_1 \times z^*_2 = (3-2i) \times (1 + i) = 5 +i \\ z_1 \times z_2 = (3+2i) \times (1-i) = 5 - i \\ z^*_1 + z^*_2 = (3-2i) + (1+i) = 4 - i \\ z_1 + z_2 = (3+2i) + (1-i) = 4 + i$

矩阵特征值和特征向量的共轭
如果 $\bf A$ 是实数矩阵，并且 ${\bf Ax} = \lambda {\bf x}$ 那么 ${\bf A}{\bf x}^* = \lambda^* {\bf x}^*$

复数和其共轭相乘或相加得实数 即 $z^* \in {\Bbb R} \\ z \times z^* \in {\Bbb R}$
一些有用的公式 $\begin{aligned} |(a+bi)|^2 & = a^2 + b^2 \\[2ex] (a+bi)(a-bi) & = a^2 + b^2 \\[2ex] \frac{1}{a+bi} & = \frac{1}{a+bi} \frac{a - bi}{a - bi} = \frac{a-bi}{a^2 + b^2} \end{aligned}$
在单位元上，即 $a^2+b^2 = 1$ 时， $a+bi)^{-1} = a - bi$ ，即 $1/z = z^*$ 。

复数的绝对值
$\sqrt[2]{a^2 + b^2}$ $∣ z ∣$ 通常还被记为 $r$ 。当 $a^2+b^2 = 1$ 时， $r$ 就是单位圆的半径。 $z$ 和 $x$ 轴的夹角记为 $\theta$ ， $z$ 平方后与 $x$ 轴的夹角变为 $2\theta$ 。

复数的指数形式
$r\cos\theta + ir\sin\theta = re^{i\theta} \\ z^n = r^n\cos n\theta + ir^n\sin n\theta = r^ne^{in\theta}$ 设 $r'\cos\theta' + ir'\sin\theta'$ ，则 $\times z' = (r\cos\theta + ir\sin\theta) \times (r'\cos\theta' + ir'\sin\theta') \\ = rr'(\cos(\theta + \theta')+i\sin(\theta + \theta'))$

厄米特矩阵（Hermitian Matrix）

对于实数向量 $\bf x$ ，其长度平方（length squared）为 $x_1^2 + x_2^2 + \cdots + x_n^2$ 。但对于复数向量 $\bf z$ ，长度平方就不是 $z^2_1 + z^2_2 + \cdots + z_n^2$ ，比如向量 $(1, i)$ ，如果还按照实数向量长度平方的定义，则 $1^2 + i^2=0$ 。如果这么定义，那么一个非零向量的长度平方就有可能是 $0$ ，这不是一个好的定义。并且这么定义，长度平方还有可能是复数。因此对于复数向量 $\bf z$ ，我们定义 ${\bf z}^{*T}{\bf z} = ||{\bf z}||^2$ 。我们记 ${\bf z}^{*T} = {\bf z}^H$ ，例如
${\bf A} = \begin{bmatrix} 1 & i \\ 0 & 1 + i \end{bmatrix}$ 则 ${\bf A}^H = \begin{bmatrix} 1 & 0 \\ -i & 1 - i \end{bmatrix}$ ，即 ${\bf A}^H$ 为对 ${\bf A}$ 转置后再取其复共轭。

对于实向量， ${\bf x}^T{\bf x} = ||{\bf x}||^2$ ，对于复向量， ${\bf z}^H{\bf z} = ||{\bf z}||^2$ 。考虑 ${\bf x}^T{\bf x}$ 就是 $\bf x$ 和其自身的内积，我们定义复向量 $\bf u$ 和 $\bf v$ 的内积为 ${\bf u}^H{\bf v}$ ，即 ${\bf u}^H{\bf v} = [u^*_1, u^*_2, \cdots, u^*_n] \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} = u^*_1v_1 + u^*_2v_2 + \cdots + u^*_nv_n$ 请注意，对于复向量， ${\bf u}^H{\bf v}$ 和 ${\bf v}^H{\bf u}$ 是不等价的。事实上， ${\bf v}^H{\bf u}$ 是 ${\bf u}^H{\bf v}$ 的复共轭。

方阵对角化
设 $n$ 维方阵 $\bf A$ 有 $n$ 个线性独立的特征向量 $\bf x_1, \bf x_2, \cdots , \bf x_n$ ，现在将这些特征向量作为特征矩阵 $\bf X$ 的列向量，那么 ${\bf X}^{-1}{\bf AX}$ 即是特征值矩阵 $\bf \Lambda$ 。即 ${\bf X}^{-1}{\bf AX} = {\bf \Lambda} = \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{bmatrix}$

正交基
我们说列向量 $q_1, q_2, \ldots, q_n$ 是正交的，如果 $q_i^Tq_j = \begin{cases} 0, & \text {for $i \neq j$} \\ 1, & \text{for $i = j$} \end{cases}$ 列向量 $q_1, q_2, \ldots, q_n$ 组成的矩阵 $\bf Q$ 有如下性质 ${\bf Q}^T{\bf Q} = {\bf I}, \quad \text{ which means} \quad {\bf Q}^T = {\bf Q}^{-1}$

厄米特矩阵
实对称矩阵 $\bf S$ 可以写成 ${\bf S}={\bf Q\Lambda Q}^{-1}$ 的形式，且 ${\bf S}^T = {\bf S}$ 。复对称矩阵 $\bf S$ ，则有 ${\bf S}^H = {\bf S}$ 。当 ${\bf S}^H = {\bf S}$ 时，我们称矩阵 $\bf S$ 为厄米特矩阵（Hermitian Matrix）。

如果 ${\bf S} = {\bf S}^H$ ，并且 $\bf z$ 为实或者复列向量，则 ${\bf z}^H{\bf Sz}$ 为实数。

每一个 Hermitian 矩阵的特征值都是实数。

Hermitian 矩阵的特征向量相互正交，即 $\left. \begin{array}{l} {\bf Sz} = \lambda{\bf z} \\ {\bf Sy} = \beta{\bf y} \\ \lambda \neq \beta \end{array} \right\} \implies {\bf y}^H{\bf z} = 0$

瑞利定理（Rayleigh theorem）

以下参考 https://www.planetmath.org/RayleighRitzTheorem
定义瑞利商（Rayleigh quotient）为 $R({\bf A,x}) = \frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}}$ 其中， $\bf x$ 为非零向量， $\bf A$ 为 $\times n$ Hermitian Matrix， $\bf A$ 的特征向量即是函数 $R({\bf A,x})$ 的驻点（critical point），特征向量相对应的特征值即为函数在该驻点的值。由此，我们可知 $R({\bf A,x})$ 的最大值等于矩阵 $\bf A$ 最大的特征值，而最小值等于矩阵 $\bf A$ 的最小的特征值，即 $\lambda_{min} \leq \frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}} \leq \lambda_{max}$ 当向量 $\bf x$ 是标准正交基时，即满足 ${\bf x}^H{\bf x}=1$ 时，瑞利熵为 $R({\bf A,x}) = {\bf x}^H{\bf Ax}$

证明

首先，根据 Hermitian Matrix 性质， ${\bf x}^H{\bf Ax}$ 为实数， ${\bf x}^H{\bf x}$ 显然是实数，因而 $R({\bf A,x})$ 为实数。

现在求 $R({\bf A,x})$ 的驻点 $\overline{\bf x}$ ，我们将瑞利熵简写为 $R({\bf x})$ ，即求解方程 $\frac{dR(\overline{\bf x})}{d{\bf x}} = {\bf 0}^T$ 令 ${\bf x} = {\bf x}^{R} + i{\bf x}^{I}$ ${\bf x}^R$ 和 ${\bf x}^I$ 分别是 $\bf x$ 的实部和虚部，则有 $\frac{dR({\bf x})}{d{\bf x}} = \frac{dR({\bf x})}{d{\bf x}^R} + i\frac{dR({\bf x})}{d{\bf x}^I}$ 因此，有 $\frac{dR(\overline{\bf x})}{d{\bf x}^R} = \frac{dR(\overline{\bf x})}{d{\bf x}^I} = {\bf 0}^T \tag{0}$ 根据微分法则 $\begin{aligned} \frac{dR({\bf x})}{d{\bf x}^R} & = \frac{d}{d{\bf x}^R}(\frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}}) \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R}({\bf x}^H{\bf x}) - {\bf x}^H{\bf Ax} \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^R}}{({\bf x}^H{\bf x})^2} \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R} - R({\bf x}) \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^R} }{{\bf x}^H{\bf x}} \end{aligned} \tag{1}$ 根据矩阵微分法则 $\begin{aligned} \frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R} & = {\bf x}^H{\bf A} \frac{d{\bf x}}{d{\bf x}^R} + {\bf x}^T{\bf A}^T \frac{d{\bf x}^*}{d{\bf x}^R} \\ \\ & = {\bf x}^H{\bf A} + {\bf x}^T{\bf A}^T \\ & = {\bf x}^H{\bf A} + ({\bf x}^H{\bf A}^H)^* \end{aligned}$ 又因为 ${\bf A} = {\bf A}^H$ ，所以上式变为 ${\bf x}^H{\bf A} + ({\bf x}^H{\bf A})^* = 2({\bf x}^H{\bf A})^R \tag{2}$ （注：矩阵微分参考手册 http://www.ee.ic.ac.uk/hp/staff/dmb/matrix/calculus.html ）
类似的，我们可以得到 $\frac{d({\bf x}^H{\bf x})}{d{\bf x}^R} = 2({\bf x}^H)^R \tag{3}$ 将 $(2) 、 (3)$ 代入 $(1)$ 得 $\frac{d R({\bf x})}{d{\bf x}^R} = 2 \frac{({\bf x}^H{\bf A})^R - R({\bf x})({\bf x}^H)^R}{{\bf x}^H{\bf x}}$ 根据 $(0)$ 式，我们有 ${\bf 0}^T = (\overline{\bf x}^H{\bf A})^R - R(\overline{\bf x})(\overline{\bf x}^H)^R$ 即 $\begin{aligned} {\bf 0} & = ((\overline{\bf x}^H{\bf A})^R - R(\overline{\bf x})(\overline{\bf x}^H)^R)^T \\ & = ({\bf A}^T\overline{\bf x}^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}^H\overline{\bf x})^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}\overline{\bf x})^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}\overline{\bf x}))^R - R(\overline{\bf x})(\overline{\bf x})^R \end{aligned}$ 由于 $R(\bf x)$ 为实数，因此 ${\bf 0} = ({\bf A}\overline{\bf x} - R(\overline{\bf x})\overline{\bf x})^R \tag{I}$ 接下来看 $dR({\bf x})/d{\bf x}^I$ 根据微分法则 $\begin{aligned} \frac{dR({\bf x})}{d{\bf x}^I} & = \frac{d}{d{\bf x}^I}(\frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}}) \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I}({\bf x}^H{\bf x}) - {\bf x}^H{\bf Ax} \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^I}}{({\bf x}^H{\bf x})^2} \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} - R({\bf x}) \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^I} }{{\bf x}^H{\bf x}} \end{aligned} \tag{4}$ 根据矩阵微分法则 $\begin{aligned} \frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} & = {\bf x}^H{\bf A} \frac{d{\bf x}}{d{\bf x}^I} + {\bf x}^T{\bf A}^T \frac{d{\bf x}^*}{d{\bf x}^I} \\ \\ & = i{\bf x}^H{\bf A} - i{\bf x}^T{\bf A}^T \\ & = i{\bf x}^H{\bf A} - ({\bf x}^H{\bf A}^H)^* \end{aligned}$ 因为 ${\bf A} = {\bf A}^H$ ，我们有 $\frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} = i({\bf x}^H{\bf A} - ({\bf x}^H{\bf A})^*) = i(2i({\bf x}^H{\bf A})^I) = -2({\bf x}^H{\bf A})^I \tag{5}$ 类似的，我们有 $\frac{d({\bf x}^H{\bf x})}{d{\bf x}^I} = i{\bf x}^H - i{\bf x}^T = i({\bf x}^H - ({\bf x}^H)^*) = i(2i({\bf x}^H)^I) = -2({\bf x}^H)^I \tag{6}$ 将 $(5) 、 (6)$ 代入 $(4)$ ，得 $\frac{dR({\bf x})}{d{\bf x}^I} = -2 \frac{({\bf x}^H{\bf A})^I - R({\bf x})({\bf x}^H)^I}{{\bf x}^H{\bf x}}$ 根据 $(0)$ 式，我们有 ${\bf 0}^T = (\overline{\bf x}^H{\bf A})^I - R(\overline{\bf x})(\overline{\bf x}^H)^I$ 即 $\begin{aligned} {\bf 0} & = ((\overline{\bf x}^H{\bf A})^I - R(\overline{\bf x})(\overline{\bf x}^H)^I)^T \\ & = ({\bf A}^T\overline{\bf x}^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = (({\bf A}^H\overline{\bf x})^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = (({\bf A}\overline{\bf x})^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = -({\bf A}\overline{\bf x})^I + R(\overline{\bf x})(\overline{\bf x})^I \end{aligned}$ 因为 $R(\overline{\bf x})$ 为实数，所以 ${\bf 0} = (({\bf A}\overline{\bf x}) - R(\overline{\bf x})(\overline{\bf x}))^I \tag{II}$ 根据 $(I) 、 (I I)$ 两式，可知 ${\bf A}\overline{\bf x} - R(\overline{\bf x})(\overline{\bf x}) = {\bf 0}$ 而这正是我们要证明的。