瑞利商(Rayleigh Quotient)及瑞利定理(Rayleigh-Ritz theorem)的证明

数学系列为本人学习笔记,水平有限,错误在所难免,请读者不吝指正。

证明主体部分来自下面的链接。
https://www.planetmath.org/RayleighRitzTheorem

先来看几个基本概念

复平面(Complex Plane)

考虑形如 a + b i a+bi a+bi 的复数,该数代表复平面上的一个点。复平面中 x x x 轴代表实数部分, y y y 轴代表虚数部分,这样 a + b i a+bi a+bi 在复平面上就代表坐标为 ( a , b ) (a,b) (a,b) 的一个点。复数 a + b i a + bi a+bi 也可以看作在复平面上以原点 ( 0 , 0 ) (0,0) (0,0) 为出发点,以 ( a , b ) (a,b) (a,b) 为终点的向量。这样,对于复数的加减就相当于对复平面上的向量进行加减。

复共轭(complex conjugate) 定义复数 z = a + b i z=a+bi z=a+bi 的共轭 z ∗ z^* z z ∗ = a − b i z^* = a - bi z=abi

两个有用的公式
z 1 ∗ × z 2 ∗ = ( z 1 × z 2 ) ∗ (1) z^*_1 \times z^*_2 = (z_1 \times z_2)^* \tag{1} z1×z2=(z1×z2)(1) z 1 ∗ + z 2 ∗ = ( z 1 + z 2 ) ∗ (2) z^*_1 + z^*_2 = (z_1 + z_2)^* \tag{2} z1+z2=(z1+z2)(2) 例如 , z 1 = 3 + 2 i z_1 = 3 + 2i z1=3+2i z 2 = 1 − i z_2 = 1 - i z2=1i,则 z 1 ∗ × z 2 ∗ = ( 3 − 2 i ) × ( 1 + i ) = 5 + i z 1 × z 2 = ( 3 + 2 i ) × ( 1 − i ) = 5 − i z 1 ∗ + z 2 ∗ = ( 3 − 2 i ) + ( 1 + i ) = 4 − i z 1 + z 2 = ( 3 + 2 i ) + ( 1 − i ) = 4 + i z^*_1 \times z^*_2 = (3-2i) \times (1 + i) = 5 +i \\ z_1 \times z_2 = (3+2i) \times (1-i) = 5 - i \\ z^*_1 + z^*_2 = (3-2i) + (1+i) = 4 - i \\ z_1 + z_2 = (3+2i) + (1-i) = 4 + i z1×z2=(32i)×(1+i)=5+iz1×z2=(3+2i)×(1i)=5iz1+z2=(32i)+(1+i)=4iz1+z2=(3+2i)+(1i)=4+i

矩阵特征值和特征向量的共轭
如果 A \bf A A 是实数矩阵,并且 A x = λ x {\bf Ax} = \lambda {\bf x} Ax=λx 那么 A x ∗ = λ ∗ x ∗ {\bf A}{\bf x}^* = \lambda^* {\bf x}^* Ax=λx

复数和其共轭相乘或相加得实数 z + z ∗ ∈ R z × z ∗ ∈ R z + z^* \in {\Bbb R} \\ z \times z^* \in {\Bbb R} z+zRz×zR
一些有用的公式 ∣ ( a + b i ) ∣ 2 = a 2 + b 2 ( a + b i ) ( a − b i ) = a 2 + b 2 1 a + b i = 1 a + b i a − b i a − b i = a − b i a 2 + b 2 \begin{aligned} |(a+bi)|^2 & = a^2 + b^2 \\[2ex] (a+bi)(a-bi) & = a^2 + b^2 \\[2ex] \frac{1}{a+bi} & = \frac{1}{a+bi} \frac{a - bi}{a - bi} = \frac{a-bi}{a^2 + b^2} \end{aligned} (a+bi)2(a+bi)(abi)a+bi1=a2+b2=a2+b2=a+bi1abiabi=a2+b2abi
在单位元上,即 a 2 + b 2 = 1 a^2+b^2 = 1 a2+b2=1 时, ( a + b i ) − 1 = a − b i (a+bi)^{-1} = a - bi (a+bi)1=abi,即 1 / z = z ∗ 1/z = z^* 1/z=z

复数的绝对值
∣ z ∣ = ∣ a + b i ∣ = a 2 + b 2 2 |z| = |a+bi| = \sqrt[2]{a^2 + b^2} z=a+bi=2a2+b2 ∣ z ∣ |z| z 通常还被记为 r r r 。当 a 2 + b 2 = 1 a^2+b^2 = 1 a2+b2=1 时, r r r 就是单位圆的半径。 z z z x x x 轴的夹角记为 θ \theta θ z z z 平方后与 x x x 轴的夹角变为 2 θ 2\theta 2θ

复数的指数形式
z = r cos ⁡ θ + i r sin ⁡ θ = r e i θ z n = r n cos ⁡ n θ + i r n sin ⁡ n θ = r n e i n θ z = r\cos\theta + ir\sin\theta = re^{i\theta} \\ z^n = r^n\cos n\theta + ir^n\sin n\theta = r^ne^{in\theta} z=rcosθ+irsinθ=reiθzn=rncosnθ+irnsinnθ=rneinθ z ′ = r ′ cos ⁡ θ ′ + i r ′ sin ⁡ θ ′ z' = r'\cos\theta' + ir'\sin\theta' z=rcosθ+irsinθ,则 z × z ′ = ( r cos ⁡ θ + i r sin ⁡ θ ) × ( r ′ cos ⁡ θ ′ + i r ′ sin ⁡ θ ′ ) = r r ′ ( cos ⁡ ( θ + θ ′ ) + i sin ⁡ ( θ + θ ′ ) ) z \times z' = (r\cos\theta + ir\sin\theta) \times (r'\cos\theta' + ir'\sin\theta') \\ = rr'(\cos(\theta + \theta')+i\sin(\theta + \theta')) z×z=(rcosθ+irsinθ)×(rcosθ+irsinθ)=rr(cos(θ+θ)+isin(θ+θ))

厄米特矩阵(Hermitian Matrix)

对于实数向量 x \bf x x,其长度平方(length squared)为 x 1 2 + x 2 2 + ⋯ + x n 2 x_1^2 + x_2^2 + \cdots + x_n^2 x12+x22++xn2。但对于复数向量 z \bf z z,长度平方就不是 z 1 2 + z 2 2 + ⋯ + z n 2 z^2_1 + z^2_2 + \cdots + z_n^2 z12+z22++zn2,比如向量 ( 1 , i ) (1, i) (1,i),如果还按照实数向量长度平方的定义,则 1 2 + i 2 = 0 1^2 + i^2=0 12+i2=0 。如果这么定义,那么一个非零向量的长度平方就有可能是 0 0 0,这不是一个好的定义。并且这么定义,长度平方还有可能是复数。因此对于复数向量 z \bf z z,我们定义 z ∗ T z = ∣ ∣ z ∣ ∣ 2 {\bf z}^{*T}{\bf z} = ||{\bf z}||^2 zTz=z2 。 我们记 z ∗ T = z H {\bf z}^{*T} = {\bf z}^H zT=zH,例如
A = [ 1 i 0 1 + i ] {\bf A} = \begin{bmatrix} 1 & i \\ 0 & 1 + i \end{bmatrix} A=[10i1+i] A H = [ 1 0 − i 1 − i ] {\bf A}^H = \begin{bmatrix} 1 & 0 \\ -i & 1 - i \end{bmatrix} AH=[1i01i],即 A H {\bf A}^H AH 为对 A {\bf A} A 转置后再取其复共轭。

对于实向量, x T x = ∣ ∣ x ∣ ∣ 2 {\bf x}^T{\bf x} = ||{\bf x}||^2 xTx=x2 ,对于复向量, z H z = ∣ ∣ z ∣ ∣ 2 {\bf z}^H{\bf z} = ||{\bf z}||^2 zHz=z2 。考虑 x T x {\bf x}^T{\bf x} xTx 就是 x \bf x x 和其自身的内积,我们定义复向量 u \bf u u v \bf v v 的内积为 u H v {\bf u}^H{\bf v} uHv,即 u H v = [ u 1 ∗ , u 2 ∗ , ⋯   , u n ∗ ] [ v 1 v 2 ⋮ v n ] = u 1 ∗ v 1 + u 2 ∗ v 2 + ⋯ + u n ∗ v n {\bf u}^H{\bf v} = [u^*_1, u^*_2, \cdots, u^*_n] \begin{bmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{bmatrix} = u^*_1v_1 + u^*_2v_2 + \cdots + u^*_nv_n uHv=[u1,u2,,un]v1v2vn=u1v1+u2v2++unvn 请注意,对于复向量, u H v {\bf u}^H{\bf v} uHv v H u {\bf v}^H{\bf u} vHu 是不等价的。事实上, v H u {\bf v}^H{\bf u} vHu u H v {\bf u}^H{\bf v} uHv 的复共轭。

方阵对角化
n n n 维方阵 A \bf A A n n n 个线性独立的特征向量 x 1 , x 2 , ⋯   , x n \bf x_1, \bf x_2, \cdots , \bf x_n x1,x2,,xn,现在将这些特征向量作为特征矩阵 X \bf X X 的列向量,那么 X − 1 A X {\bf X}^{-1}{\bf AX} X1AX 即是特征值矩阵 Λ \bf \Lambda Λ 。即 X − 1 A X = Λ = [ λ 1 ⋱ λ n ] {\bf X}^{-1}{\bf AX} = {\bf \Lambda} = \begin{bmatrix} \lambda_1 & & \\ & \ddots & \\ & & \lambda_n \end{bmatrix} X1AX=Λ=λ1λn

正交基
我们说列向量 q 1 , q 2 , … , q n q_1, q_2, \ldots, q_n q1,q2,,qn 是正交的,如果 q i T q j = { 0 , for  i ≠ j 1 , for  i = j q_i^Tq_j = \begin{cases} 0, & \text {for $i \neq j$} \\ 1, & \text{for $i = j$} \end{cases} qiTqj={0,1,for i=jfor i=j 列向量 q 1 , q 2 , … , q n q_1, q_2, \ldots, q_n q1,q2,,qn 组成的矩阵 Q \bf Q Q 有如下性质 Q T Q = I ,  which means Q T = Q − 1 {\bf Q}^T{\bf Q} = {\bf I}, \quad \text{ which means} \quad {\bf Q}^T = {\bf Q}^{-1} QTQ=I, which meansQT=Q1

厄米特矩阵
实对称矩阵 S \bf S S 可以写成 S = Q Λ Q − 1 {\bf S}={\bf Q\Lambda Q}^{-1} S=QΛQ1 的形式,且 S T = S {\bf S}^T = {\bf S} ST=S。复对称矩阵 S \bf S S,则有 S H = S {\bf S}^H = {\bf S} SH=S 。当 S H = S {\bf S}^H = {\bf S} SH=S 时,我们称矩阵 S \bf S S厄米特矩阵(Hermitian Matrix)

如果 S = S H {\bf S} = {\bf S}^H S=SH,并且 z \bf z z 为实或者复列向量,则 z H S z {\bf z}^H{\bf Sz} zHSz 为实数。

每一个 Hermitian 矩阵的特征值都是实数。

Hermitian 矩阵的特征向量相互正交,即 S z = λ z S y = β y λ ≠ β }    ⟹    y H z = 0 \left. \begin{array}{l} {\bf Sz} = \lambda{\bf z} \\ {\bf Sy} = \beta{\bf y} \\ \lambda \neq \beta \end{array} \right\} \implies {\bf y}^H{\bf z} = 0 Sz=λzSy=βyλ=βyHz=0

瑞利定理(Rayleigh theorem)

以下参考 https://www.planetmath.org/RayleighRitzTheorem
定义瑞利商(Rayleigh quotient)为 R ( A , x ) = x H A x x H x R({\bf A,x}) = \frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}} R(A,x)=xHxxHAx 其中, x \bf x x 为非零向量, A \bf A A n × n n \times n n×n Hermitian Matrix, A \bf A A 的特征向量即是函数 R ( A , x ) R({\bf A,x}) R(A,x) 的驻点(critical point),特征向量相对应的特征值即为函数在该驻点的值。由此,我们可知 R ( A , x ) R({\bf A,x}) R(A,x) 的最大值等于矩阵 A \bf A A 最大的特征值,而最小值等于矩阵 A \bf A A 的最小的特征值,即 λ m i n ≤ x H A x x H x ≤ λ m a x \lambda_{min} \leq \frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}} \leq \lambda_{max} λminxHxxHAxλmax 当向量 x \bf x x 是标准正交基时,即满足 x H x = 1 {\bf x}^H{\bf x}=1 xHx=1 时,瑞利熵为 R ( A , x ) = x H A x R({\bf A,x}) = {\bf x}^H{\bf Ax} R(A,x)=xHAx

证明

首先,根据 Hermitian Matrix 性质, x H A x {\bf x}^H{\bf Ax} xHAx 为实数, x H x {\bf x}^H{\bf x} xHx 显然是实数,因而 R ( A , x ) R({\bf A,x}) R(A,x) 为实数。

现在求 R ( A , x ) R({\bf A,x}) R(A,x) 的驻点 x ‾ \overline{\bf x} x,我们将瑞利熵简写为 R ( x ) R({\bf x}) R(x),即求解方程 d R ( x ‾ ) d x = 0 T \frac{dR(\overline{\bf x})}{d{\bf x}} = {\bf 0}^T dxdR(x)=0T x = x R + i x I {\bf x} = {\bf x}^{R} + i{\bf x}^{I} x=xR+ixI x R {\bf x}^R xR x I {\bf x}^I xI 分别是 x \bf x x 的实部和虚部,则有 d R ( x ) d x = d R ( x ) d x R + i d R ( x ) d x I \frac{dR({\bf x})}{d{\bf x}} = \frac{dR({\bf x})}{d{\bf x}^R} + i\frac{dR({\bf x})}{d{\bf x}^I} dxdR(x)=dxRdR(x)+idxIdR(x) 因此,有 d R ( x ‾ ) d x R = d R ( x ‾ ) d x I = 0 T (0) \frac{dR(\overline{\bf x})}{d{\bf x}^R} = \frac{dR(\overline{\bf x})}{d{\bf x}^I} = {\bf 0}^T \tag{0} dxRdR(x)=dxIdR(x)=0T(0) 根据微分法则 d R ( x ) d x R = d d x R ( x H A x x H x ) = d ( x H A x ) d x R ( x H x ) − x H A x d ( x H x ) d x R ( x H x ) 2 = d ( x H A x ) d x R − R ( x ) d ( x H x ) d x R x H x (1) \begin{aligned} \frac{dR({\bf x})}{d{\bf x}^R} & = \frac{d}{d{\bf x}^R}(\frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}}) \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R}({\bf x}^H{\bf x}) - {\bf x}^H{\bf Ax} \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^R}}{({\bf x}^H{\bf x})^2} \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R} - R({\bf x}) \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^R} }{{\bf x}^H{\bf x}} \end{aligned} \tag{1} dxRdR(x)=dxRd(xHxxHAx)=(xHx)2dxRd(xHAx)(xHx)xHAxdxRd(xHx)=xHxdxRd(xHAx)R(x)dxRd(xHx)(1) 根据矩阵微分法则 d ( x H A x ) d x R = x H A d x d x R + x T A T d x ∗ d x R = x H A + x T A T = x H A + ( x H A H ) ∗ \begin{aligned} \frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^R} & = {\bf x}^H{\bf A} \frac{d{\bf x}}{d{\bf x}^R} + {\bf x}^T{\bf A}^T \frac{d{\bf x}^*}{d{\bf x}^R} \\ \\ & = {\bf x}^H{\bf A} + {\bf x}^T{\bf A}^T \\ & = {\bf x}^H{\bf A} + ({\bf x}^H{\bf A}^H)^* \end{aligned} dxRd(xHAx)=xHAdxRdx+xTATdxRdx=xHA+xTAT=xHA+(xHAH) 又因为 A = A H {\bf A} = {\bf A}^H A=AH,所以上式变为 x H A + ( x H A ) ∗ = 2 ( x H A ) R (2) {\bf x}^H{\bf A} + ({\bf x}^H{\bf A})^* = 2({\bf x}^H{\bf A})^R \tag{2} xHA+(xHA)=2(xHA)R(2) (注:矩阵微分参考手册 http://www.ee.ic.ac.uk/hp/staff/dmb/matrix/calculus.html
类似的,我们可以得到 d ( x H x ) d x R = 2 ( x H ) R (3) \frac{d({\bf x}^H{\bf x})}{d{\bf x}^R} = 2({\bf x}^H)^R \tag{3} dxRd(xHx)=2(xH)R(3) ( 2 ) 、 ( 3 ) (2)、(3) (2)(3) 代入 ( 1 ) (1) (1) d R ( x ) d x R = 2 ( x H A ) R − R ( x ) ( x H ) R x H x \frac{d R({\bf x})}{d{\bf x}^R} = 2 \frac{({\bf x}^H{\bf A})^R - R({\bf x})({\bf x}^H)^R}{{\bf x}^H{\bf x}} dxRdR(x)=2xHx(xHA)RR(x)(xH)R 根据 ( 0 ) (0) (0) 式,我们有 0 T = ( x ‾ H A ) R − R ( x ‾ ) ( x ‾ H ) R {\bf 0}^T = (\overline{\bf x}^H{\bf A})^R - R(\overline{\bf x})(\overline{\bf x}^H)^R 0T=(xHA)RR(x)(xH)R 0 = ( ( x ‾ H A ) R − R ( x ‾ ) ( x ‾ H ) R ) T = ( A T x ‾ ∗ ) R − R ( x ‾ ) ( x ‾ ∗ ) R = ( ( A H x ‾ ) ∗ ) R − R ( x ‾ ) ( x ‾ ∗ ) R = ( ( A x ‾ ) ∗ ) R − R ( x ‾ ) ( x ‾ ∗ ) R = ( ( A x ‾ ) ) R − R ( x ‾ ) ( x ‾ ) R \begin{aligned} {\bf 0} & = ((\overline{\bf x}^H{\bf A})^R - R(\overline{\bf x})(\overline{\bf x}^H)^R)^T \\ & = ({\bf A}^T\overline{\bf x}^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}^H\overline{\bf x})^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}\overline{\bf x})^*)^R - R(\overline{\bf x})(\overline{\bf x}^*)^R \\ & = (({\bf A}\overline{\bf x}))^R - R(\overline{\bf x})(\overline{\bf x})^R \end{aligned} 0=((xHA)RR(x)(xH)R)T=(ATx)RR(x)(x)R=((AHx))RR(x)(x)R=((Ax))RR(x)(x)R=((Ax))RR(x)(x)R 由于 R ( x ) R(\bf x) R(x) 为实数,因此 0 = ( A x ‾ − R ( x ‾ ) x ‾ ) R (I) {\bf 0} = ({\bf A}\overline{\bf x} - R(\overline{\bf x})\overline{\bf x})^R \tag{I} 0=(AxR(x)x)R(I) 接下来看 d R ( x ) / d x I dR({\bf x})/d{\bf x}^I dR(x)/dxI 根据微分法则 d R ( x ) d x I = d d x I ( x H A x x H x ) = d ( x H A x ) d x I ( x H x ) − x H A x d ( x H x ) d x I ( x H x ) 2 = d ( x H A x ) d x I − R ( x ) d ( x H x ) d x I x H x (4) \begin{aligned} \frac{dR({\bf x})}{d{\bf x}^I} & = \frac{d}{d{\bf x}^I}(\frac{{\bf x}^H{\bf Ax}}{{\bf x}^H{\bf x}}) \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I}({\bf x}^H{\bf x}) - {\bf x}^H{\bf Ax} \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^I}}{({\bf x}^H{\bf x})^2} \\[2ex] & = \frac{\cfrac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} - R({\bf x}) \cfrac{d({\bf x}^H{\bf x})}{d{\bf x}^I} }{{\bf x}^H{\bf x}} \end{aligned} \tag{4} dxIdR(x)=dxId(xHxxHAx)=(xHx)2dxId(xHAx)(xHx)xHAxdxId(xHx)=xHxdxId(xHAx)R(x)dxId(xHx)(4) 根据矩阵微分法则 d ( x H A x ) d x I = x H A d x d x I + x T A T d x ∗ d x I = i x H A − i x T A T = i x H A − ( x H A H ) ∗ \begin{aligned} \frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} & = {\bf x}^H{\bf A} \frac{d{\bf x}}{d{\bf x}^I} + {\bf x}^T{\bf A}^T \frac{d{\bf x}^*}{d{\bf x}^I} \\ \\ & = i{\bf x}^H{\bf A} - i{\bf x}^T{\bf A}^T \\ & = i{\bf x}^H{\bf A} - ({\bf x}^H{\bf A}^H)^* \end{aligned} dxId(xHAx)=xHAdxIdx+xTATdxIdx=ixHAixTAT=ixHA(xHAH) 因为 A = A H {\bf A} = {\bf A}^H A=AH,我们有 d ( x H A x ) d x I = i ( x H A − ( x H A ) ∗ ) = i ( 2 i ( x H A ) I ) = − 2 ( x H A ) I (5) \frac{d({\bf x}^H{\bf Ax})}{d{\bf x}^I} = i({\bf x}^H{\bf A} - ({\bf x}^H{\bf A})^*) = i(2i({\bf x}^H{\bf A})^I) = -2({\bf x}^H{\bf A})^I \tag{5} dxId(xHAx)=i(xHA(xHA))=i(2i(xHA)I)=2(xHA)I(5) 类似的,我们有 d ( x H x ) d x I = i x H − i x T = i ( x H − ( x H ) ∗ ) = i ( 2 i ( x H ) I ) = − 2 ( x H ) I (6) \frac{d({\bf x}^H{\bf x})}{d{\bf x}^I} = i{\bf x}^H - i{\bf x}^T = i({\bf x}^H - ({\bf x}^H)^*) = i(2i({\bf x}^H)^I) = -2({\bf x}^H)^I \tag{6} dxId(xHx)=ixHixT=i(xH(xH))=i(2i(xH)I)=2(xH)I(6) ( 5 ) 、 ( 6 ) (5)、(6) (5)(6) 代入 ( 4 ) (4) (4),得 d R ( x ) d x I = − 2 ( x H A ) I − R ( x ) ( x H ) I x H x \frac{dR({\bf x})}{d{\bf x}^I} = -2 \frac{({\bf x}^H{\bf A})^I - R({\bf x})({\bf x}^H)^I}{{\bf x}^H{\bf x}} dxIdR(x)=2xHx(xHA)IR(x)(xH)I 根据 ( 0 ) (0) (0) 式,我们有 0 T = ( x ‾ H A ) I − R ( x ‾ ) ( x ‾ H ) I {\bf 0}^T = (\overline{\bf x}^H{\bf A})^I - R(\overline{\bf x})(\overline{\bf x}^H)^I 0T=(xHA)IR(x)(xH)I 0 = ( ( x ‾ H A ) I − R ( x ‾ ) ( x ‾ H ) I ) T = ( A T x ‾ ∗ ) I − R ( x ‾ ) ( x ‾ ∗ ) I = ( ( A H x ‾ ) ∗ ) I − R ( x ‾ ) ( x ‾ ∗ ) I = ( ( A x ‾ ) ∗ ) I − R ( x ‾ ) ( x ‾ ∗ ) I = − ( A x ‾ ) I + R ( x ‾ ) ( x ‾ ) I \begin{aligned} {\bf 0} & = ((\overline{\bf x}^H{\bf A})^I - R(\overline{\bf x})(\overline{\bf x}^H)^I)^T \\ & = ({\bf A}^T\overline{\bf x}^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = (({\bf A}^H\overline{\bf x})^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = (({\bf A}\overline{\bf x})^*)^I - R(\overline{\bf x})(\overline{\bf x}^*)^I \\ & = -({\bf A}\overline{\bf x})^I + R(\overline{\bf x})(\overline{\bf x})^I \end{aligned} 0=((xHA)IR(x)(xH)I)T=(ATx)IR(x)(x)I=((AHx))IR(x)(x)I=((Ax))IR(x)(x)I=(Ax)I+R(x)(x)I 因为 R ( x ‾ ) R(\overline{\bf x}) R(x) 为实数,所以 0 = ( ( A x ‾ ) − R ( x ‾ ) ( x ‾ ) ) I (II) {\bf 0} = (({\bf A}\overline{\bf x}) - R(\overline{\bf x})(\overline{\bf x}))^I \tag{II} 0=((Ax)R(x)(x))I(II) 根据 ( I ) 、 ( I I ) (I)、(II) (I)(II) 两式,可知 A x ‾ − R ( x ‾ ) ( x ‾ ) = 0 {\bf A}\overline{\bf x} - R(\overline{\bf x})(\overline{\bf x}) = {\bf 0} AxR(x)(x)=0 而这正是我们要证明的。

参考资料

  1. https://www.planetmath.org/RayleighRitzTheorem
  2. Gilbert Strang, Introduction to Linear Algebra, Fifth Edition, 清华大学出版社
<think>好的,我需要回答用户关于瑞利在PCA中的应用和实现的问题。首先,我需要回忆PCA的基本原理和瑞利的定义,然后结合两者来阐述它们之间的关系。 首先,PCA的目标是通过线性变换将数据投影到方差最大的方向上,也就是找到主成分。方差最大化问题可以通过协方差矩阵的特征分解来解决。而瑞利在数学中通常用于寻找矩阵的特征值,尤其是在对称矩阵的情况下。瑞利定义为$R(A, x) = \frac{x^T A x}{x^T x}$,其中A是矩阵,x是非零向量。瑞利的最大值和最小值对应于A的最大和最小特征值。 接下来,我需要将瑞利与PCA中的方差最大化联系起来。在PCA中,数据经过中心化处理后,协方差矩阵为$C = \frac{1}{n}X^T X$。要最大化投影后的方差,即最大化$w^T C w$,其中w是单位向量。这正好是瑞利的形式,因为当w是单位向量时,分母为1,所以最大化$w^T C w$等同于最大化瑞利$R(C, w)$。因此,PCA中的主成分方向对应于协方差矩阵的最大特征值对应的特征向量,而这可以通过瑞利的最大化来求得。 然后,我需要详细说明如何在PCA中应用瑞利。具体步骤可能包括数据标准化、计算协方差矩阵、然后通过求解瑞利的最大值来找到主成分。同时,可以提到特征分解是实际计算中的方法,而瑞利提供了理论支持。 另外,可能需要解释为什么瑞利适用于这种情况,以及它在优化问题中的作用。例如,瑞利的最大化问题可以通过拉格朗日乘数法转化为特征值问题,从而与PCA中的特征分解方法一致。 最后,生成相关问题,可能需要考虑PCA的其他应用、瑞利在其他领域的应用,或者PCA的替代方法如LDA等。</think>### 瑞利在PCA中的应用与实现 #### 1. 瑞利的定义与性质 瑞利Rayleigh Quotient)定义为: $$ R(A, x) = \frac{x^T A x}{x^T x} $$ 其中,$A$为对称矩阵,$x$为非零向量。瑞利的最大值和最小值分别对应$A$的最大和最小特征值,而极值点对应的$x$即为对应的特征向量[^1]。 #### 2. PCA中的方差最大化与瑞利的关系 在PCA中,目标是找到投影方向$w$,使得数据在该方向上的方差最大。假设数据已中心化(均值为0),协方差矩阵为$C = \frac{1}{n}X^T X$。方差最大化问题可表示为: $$ \max_w \ w^T C w \quad \text{s.t.} \ w^T w = 1 $$ 这正是瑞利的形式:当约束条件$w^T w = 1$时,优化目标等价于最大化$R(C, w) = w^T C w$[^1]。因此,**PCA的主成分方向即为协方差矩阵最大特征值对应的特征向量**,而瑞利的最大值对应方差的最大值。 #### 3. 实现步骤 1. **数据标准化**:对数据矩阵$X$进行中心化(每列均值为0)。 2. **计算协方差矩阵**:$C = \frac{1}{n}X^T X$。 3. **特征分解**:求解$C w = \lambda w$,即通过最大化瑞利$R(C, w)$得到主成分方向$w$。 4. **投影降维**:将数据投影到前$k$个最大特征值对应的特征向量上。 #### 4. 数学推导示例 通过拉格朗日乘数法,将约束优化问题转化为特征方程: $$ \mathcal{L}(w, \lambda) = w^T C w - \lambda (w^T w - 1) $$ 对$w$求导并令导数为零,得到: $$ C w = \lambda w $$ 这表明主成分方向是协方差矩阵的特征向量,而方差最大值对应最大特征值$\lambda_{\text{max}}$。 #### 5. 优势与局限性 - **优势**:瑞利将PCA的优化问题转化为特征值问题,简化了求解过程。 - **局限性**:PCA本身是线性方法,对非线性数据需结合核方法(如Kernel PCA)[^2]。 ```python import numpy as np # PCA实现示例(基于瑞利最大化) def pca(X, k): X_centered = X - np.mean(X, axis=0) cov_matrix = np.cov(X_centered, rowvar=False) eigenvalues, eigenvectors = np.linalg.eigh(cov_matrix) sorted_indices = np.argsort(eigenvalues)[::-1] top_k_eigenvectors = eigenvectors[:, sorted_indices[:k]] return X_centered.dot(top_k_eigenvectors) ```
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值