矩阵理论| 特殊矩阵:幂等矩阵、投影、正交投影

投影矩阵 /幂等矩阵

投影矩阵 /幂等矩阵 (idempotent matrix) P \mathbf P P满足 P 2 = P P^2=P P2=P,也即 P ( I − P ) = 0 P(I-P)=0 P(IP)=0

  • 幂等矩阵 P P P 的几何意义:将向量 x \mathbf{x} x 投影至 P P P 的列空间 C ( P ) C(P) C(P)
    P 2 = P P^2=P P2=P的意义就是“投影两次等效于投影一次”
  • 投影也分为两类:斜投影(oblique projection) 和 正交投影(额外满足 P H = P P^H=P PH=P

下面先介绍一般投影的特点,然后再介绍正交投影

投影矩阵 /幂等矩阵 的性质

关于特征值和行列式:

  • 特征值必为 λ = 0 或 1 \lambda=0 或 1 λ=01(证明: P 2 x = P x P^2\mathbf{x}=P\mathbf{x} P2x=Px,则 λ 2 x = λ x \lambda^2\mathbf{x}=\lambda\mathbf{x} λ2x=λx λ 2 = λ \lambda^2=\lambda λ2=λ
    ①其中, λ = 1 \lambda=1 λ=1 的特征子空间为 C ( P ) C(P) C(P) λ = 0 \lambda=0 λ=0 的特征子空间为 N ( P ) N(P) N(P)
    det ⁡ P = 0 或 1 \det P=0 或 1 detP=01
  • 推论:投影矩阵 P P P必然可以相似对角化为 d i a g ( 1 , … , 1 , 0 , … , 0 ) \mathrm{diag}(1,\ldots,1,0,\ldots,0) diag(1,,1,0,,0)

证明:
因为 λ = 1 \lambda=1 λ=1 的特征子空间为 C ( P ) C(P) C(P) λ = 0 \lambda=0 λ=0 的特征子空间为 N ( P ) N(P) N(P),而 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)N(P)(后面证明),有充足的无关特征向量,代数重数=几何重数,投影矩阵 P P P**必然可以相似对角化

  • r a n k ( P ) = t r a c e ( P ) \mathrm{rank}(P)=\mathrm{trace}(P) rank(P)=trace(P)

证明: t r a c e ( P ) = λ 1 + . . . + λ n = 特征值 1 的个数 \mathrm{trace}(P)=\lambda_1+...+\lambda_n=特征值1的个数 trace(P)=λ1+...+λn=特征值1的个数

另外,投影矩阵的重要意义是,投影隐含了两个投影矩阵隐含了空间的直和分解

  • ( I − P ) (I-P) (IP)也是幂等矩阵,几何意义是将向量正交投影至 C ( I − P ) C(I-P) C(IP)
    并且 C ( I − P ) C(I-P) C(IP) C ( P ) C(P) C(P)互为直和补 C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)C(IP)

如图,任意向量可拆分为投影部分 C ( P ) C(P) C(P)和投影的“轨迹”部分 C ( I − P ) C(I-P) C(IP) x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x} x=Px+(IP)x在这里插入图片描述

  • N ( P ) = C ( I − P ) N(P)=C(I-P) N(P)=C(IP), 同理有 N ( I − P ) = C ( P ) N(I-P)=C(P) N(IP)=C(P)
    推论: P ( I − P ) = 0 P(I-P)=0 P(IP)=0 ( I − P ) P = 0 (I-P)P=0 (IP)P=0

证明:
①若 x ∈ N ( P ) \mathbf{x}\in N(P) xN(P) P x = 0 P\mathbf{x}=\mathbf{0} Px=0,故 ( I − P ) x = x − P x = x (I-P)\mathbf{x}=\mathbf{x}-P\mathbf{x}=\mathbf{x} (IP)x=xPx=x,亦即 x ∈ C ( I − P ) \mathbf{x}\in C(I-P) xC(IP)
②若 x ∈ C ( I − P ) \mathbf{x}\in C(I-P) xC(IP) x = ( I − P ) y \mathbf{x}=(I-P)\mathbf{y} x=(IP)y,故 P x = P ( I − P ) y = 0 y = 0 P\mathbf{x}=P(I-P)\mathbf{y}=0\mathbf{y}=\mathbf{0} Px=P(IP)y=0y=0,即 x ∈ N ( P ) \mathbf{x}\in N(P) xN(P)

  • 推论:每个投影矩阵,唯一对应空间的一个直和分解: C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)N(P)

证明: C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)C(IP),带入 C ( I − P ) = N ( P ) C(I-P)=N(P) C(IP)=N(P)即可

正交投影矩阵

在此幂等矩阵 P 2 = P P^2=P P2=P的基础上, P P P正交投影矩阵的充要条件是:

  1. P 2 = P = P H P^2=P=P^H P2=P=PH

为何正交投影要求 P H = P P^H=P PH=P
理解:“垂直投影”即 P H ( I − P ) x = 0 P^H(I-P)\mathbf{x}=0 PH(IP)x=0
这要求 P H = P H P P^H=P^HP PH=PHP,又因为 ( P H P ) H = P H P (P^HP)^H=P^HP (PHP)H=PHP,则 P H = P P^H=P PH=P

  1. P = P H P P=P^H P P=PHP

这是 P 2 = P = P H P^2=P=P^H P2=P=PH的等价描述
证明:
P 2 = P = P H P^2=P=P^H P2=P=PH,则 P H P = P P = P P^H P=PP=P PHP=PP=P;
P = P H P P=P^H P P=PHP,则 P H = P H P = P P^H=P^H P=P PH=PHP=P,且 P = P H P = P P P=P^H P=PP P=PHP=PP

  • 正交投影矩阵 P P P的几何意义:“垂直”的投影,i.e. 投影“轨迹” x − P x = ( I − P ) x \mathbf{x}-P\mathbf{x}=(I-P)\mathbf{x} xPx=(IP)x必然垂直于 C ( P ) C(P) C(P)

正交投影矩阵的性质与一般的投影矩阵相同,主要有以下不同:

  • 正交投影矩阵必为 Hermite矩阵、必为 正规矩阵 P H = P P^H=P PH=P P H P = P P H P^HP=PP^H PHP=PPH
    因此,正交投影矩阵必必有一套正交的特征向量(可酉对角化)、必有实特征值(0和1)、满足 A x = λ x ⇒ A H x = λ ˉ x A\mathbf x=\lambda\mathbf x\Rightarrow A^H\mathbf x=\bar\lambda\mathbf x Ax=λxAHx=λˉx、奇异值 σ 1 , . . . , σ n = ∣ λ 1 ∣ , … , ∣ λ n ∣ \sigma_1,...,\sigma_n=\vert\lambda_1\vert,\ldots,\vert\lambda_n\vert σ1,...,σn=λ1,,λn(特征值的绝对值)
  • 正交投影矩阵至少为半正定矩阵
    原因:正交投影矩阵满足 P H = P P^H=P PH=P,且特征值为0和1(特征值 ≥ 0 \ge 0 0),故为半正定矩阵
  • [将空间分解为 C n = X ⊕ X ⊥ \mathbb{C}^n=\mathcal{X}\oplus\mathcal{X}^{\perp} Cn=XX] 唯一对应一个 [正交投影矩阵],反之亦然

C ( P ) C(P) C(P)做投影,斜投影矩阵有无数个,正交投影矩阵则只有一个( X \mathcal{X} X唯一确定其正交补 X ⊥ \mathcal{X}^{\perp} X
①对于斜投影矩阵 P P P,空间被分为 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)N(P),我们说矩阵 P P P 将向量 v \mathbf{v} v 沿着 N ( P ) N(P) N(P) 投影至 C ( P ) C(P) C(P) N ( P ) N(P) N(P) C ( P ) C(P) C(P)不一定正交)
②对于正交投影矩阵 P P P,空间被分为 C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)N(P)(其中 N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp} N(P)=C(P) ),我们可以直接说矩阵 P P P 将向量 v \mathbf{v} v (沿着 N ( P ) = C ( P ) ⊥ N(P)=C(P)^{\perp} N(P)=C(P) )投影至 C ( P ) C(P) C(P)

  • 正交投影中实际上隐含了两个正交投影矩阵,也将空间分解为两个正交补
    P P P将向量正交投影 C ( P ) C(P) C(P) ( I − P ) (I-P) (IP)将向量正交投影 C ( I − P ) C(I-P) C(IP)
    C n = C ( P ) ⊕ C ( I − P ) \mathbb C^n=C(P)\oplus C(I-P) Cn=C(P)C(IP) C ( P ) ⊥ = C ( I − P ) C(P)^{\perp}=C(I-P) C(P)=C(IP)(正交补)
    C n = C ( P ) ⊕ N ( P ) \mathbb C^n=C(P)\oplus N(P) Cn=C(P)N(P) C ( P ) ⊥ = N ( P ) C(P)^{\perp}=N(P) C(P)=N(P)(因为 N ( P ) = C ( I − P ) N(P)=C(I-P) N(P)=C(IP)

如图,任意向量可拆分为 x = P x + ( I − P ) x \mathbf{x}=P\mathbf{x}+(I-P)\mathbf{x} x=Px+(IP)x, 且 P x ⊥ ( I − P ) x P\mathbf{x}\perp (I-P)\mathbf{x} Px(IP)x
在这里插入图片描述

  • 对于任意的 x \mathbf{x} x,正交投影矩阵保证 ∥ P x ∥ ≤ ∥ x ∥ \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert Pxx
    这就是说,正交投影 P x P\mathbf{x} Px 的长度必不大于原向量 x \mathbf{x} x 的长度
  • 反过来,任何不会增长向量长度的投影必为正交投影
    i.e. 对于投影矩阵 P = P 2 P=P^2 P=P2,若对任意 x \mathbf{x} x ∥ P x ∥ ≤ ∥ x ∥ \Vert P\mathbf{x}\Vert\le\Vert\mathbf{x}\Vert Pxx,则 P H = P P^H=P PH=P
  • 两正交投影矩阵 P P P Q Q Q 正交( P H Q = P Q = 0 P^HQ=PQ=0 PHQ=PQ=0),则
    ①它们所投影到的空间也正交( C ( P ) C(P) C(P) C ( Q ) C(Q) C(Q)正交)
    ②进而有 Q = I − P Q=I-P Q=IP

证明:
P H Q = 0 P^HQ=0 PHQ=0 x ∈ C ( P ) \mathbf{x}\in C(P) xC(P) y ∈ C ( Q ) \mathbf{y}\in C(Q) yC(Q),则 x H y = ( P x ) H ( Q y ) = x H P H Q y = 0 \mathbf{x}^{H}\mathbf{y}=(P\mathbf{x})^{H}(Q\mathbf{y})=\mathbf{x}^{H}P^{H}Q\mathbf{y}=0 xHy=(Px)H(Qy)=xHPHQy=0
C ( P ) ⊥ C ( Q ) C(P)\perp C(Q) C(P)C(Q),则对于 Q x ∈ C ( Q ) ⊆ C ( P ) ⊥ Q\mathbf{x}\in C(Q)\subseteq C(P)^{\perp} QxC(Q)C(P),有 P H ( Q x ) = 0 P^H(Q\mathbf{x})=\mathbf{0} PH(Qx)=0,即 P H Q = 0 P^HQ=0 PHQ=0

如何求向 C ( A ) C(A) C(A)做正交投影的正交投影矩阵

给出列满秩矩阵 A A A(列向量线性无关),我们希望向列空间 C ( A ) C(A) C(A)做正交投影
对应的正交投影矩阵就是 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT,可以验证 P 2 = P = P T P^2=P=P^T P2=P=PT C ( P ) = C ( A ) C(P)=C(A) C(P)=C(A)

说明:
①再次强调前提: rank A = n \hbox{rank}A=n rankA=n,此时才有 A T A A^TA ATA可逆
②注意,其中 ( A T A ) − 1 A T (A^TA)^{-1}A^T (ATA)1AT就是 A A A的左逆 A l e f t − 1 A_{left}^{-1} Aleft1
P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT中左侧先出现因子 A A A,这保证了 C ( P ) = C ( A ) C(P)=C(A) C(P)=C(A)
推导过程:线代胶囊──正交投影矩阵

  • 假如 A A A列向量是正交化的,公式得到简化:
    将QR分解 A = Q R A=QR A=QR带入 P = A ( A T A ) − 1 A T P=A(A^TA)^{-1}A^T P=A(ATA)1AT,化简得到 P = Q Q T P=QQ^T P=QQT

另外,如果 P = Q Q T = [ q 1 T ⋮ q k T ] [ q 1 ⋯ q k ] = q 1 q 1 T + ⋯ + q k q k T P=QQ^{T}=\begin{bmatrix} \mathbf{q}_1^T\\ \vdots\\ \mathbf{q}_k^T \end{bmatrix}\begin{bmatrix} \mathbf{q}_1&\cdots&\mathbf{q}_k \end{bmatrix}=\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T} P=QQT= q1TqkT [q1qk]=q1q1T++qkqkT
那么向量 x \mathbf x x的投影容易计算: P x = ( q 1 q 1 T + ⋯ + q k q k T ) x = ( q 1 T x ) q 1 + ⋯ + ( q k T x ) q k P\mathbf{x}=(\mathbf{q}_1\mathbf{q}_1^T+\cdots+\mathbf{q}_k\mathbf{q}_k^{T})\mathbf{x}=(\mathbf{q}_1^T\mathbf{x})\mathbf{q}_1+\cdots+(\mathbf{q}_k^T\mathbf{x})\mathbf{q}_k Px=(q1q1T++qkqkT)x=(q1Tx)q1++(qkTx)qk

  • 注意,这里的正交投影矩阵 P P P 是唯一的:
    即使 A A A的列向量改变,只要 C ( A ) C(A) C(A)仍不变、 A A A仍列满秩,则 A A A仍不变
  • A A A为一个向量 a \mathbf{a} a,正交投影矩阵退化为 P = a ( a T a ) − 1 a T = a a T a T a \displaystyle P=\mathbf{a}(\mathbf{a}^T\mathbf{a})^{-1}\mathbf{a}^T=\frac{\mathbf{a}\mathbf{a}^T}{\mathbf{a}^T\mathbf{a}} P=a(aTa)1aT=aTaaaT

reference:
直和与投影(前置知识)
特殊矩阵 (5):幂等矩阵
线代胶囊──正交投影矩阵
正交投影矩阵的性质与界定
从线性变换解释最小平方近似(正交投影的应用:最小二乘法)

  • 2
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值