矩阵论专栏:专栏(文章按照顺序排序)
本文以线性代数知识为基础。关于线代知识,如一些基本的秩(不)等式、零矩阵的判定条件等,可参考下面几篇博客。
矩阵论(零):线性代数基础知识整理(1)——逆矩阵、初等变换、满秩分解
矩阵论(零):线性代数基础知识整理(2)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(3)——矩阵的秩与向量组的秩
矩阵论(零):线性代数基础知识整理(4)——线性空间与线性变换
矩阵论(零):线性代数基础知识整理(5)——特征值与相似
广义逆矩阵的部分主要包括以下内容:
- 左逆与右逆
- 定义
- 左逆、右逆存在的条件
- {1}逆
- 从 A x = y Ax=y Ax=y的求解引入{1}逆
- {1}逆的通式
- 用{1}逆讨论 A x = y Ax=y Ax=y以及 A X B = D AXB=D AXB=D的求解
- PM逆
- 定义
- PM逆的性质(存在性、唯一性、秩、计算性质、列空间、零空间)
- 用PM逆讨论 A x = y Ax=y Ax=y以及 A X B = D AXB=D AXB=D的解的存在唯一性
- PM逆的计算方法
- {1,4}逆
- 从极小范数解问题引入{1,4}逆
- A { 1 , 4 } = { M ∣ M A A H = A H } = { M ∣ M A = A + A } A\{1,4\}=\{M|MAA^H=A^H\}=\{M|MA=A^+A\} A{ 1,4}={ M∣MAAH=AH}={ M∣MA=A+A}
- 利用{1,4}逆解决极小范数解的存在唯一性
- {1,3}逆
- 从最小二乘问题引入{1,3}逆
- A { 1 , 3 } = { M ∣ A H A M = A H } = { M ∣ A M = A A + } A\{1,3\}=\{M|A^HAM=A^H\}=\{M|AM=AA^+\} A{ 1,3}={ M∣AHAM=AH}={ M∣AM=AA+}
- 利用{1,4}逆解决最小二乘问题以及最小二乘解与正规方程组的联系
- 极小范数最小二乘解问题
- 总结
- 线性回归问题介绍
因为内容比较多,目录中的内容分为上、下两篇博客来写。其中,上篇介绍左逆右逆、{1}逆以及PM逆,下篇(本篇)介绍{1,4}逆、{1,3}逆及其之后的内容。定理1-20在上篇博客中,定理21-31在本文中。
上篇博客链接:链接。
【符号说明】
文中所用向量范数均指Frobenius范数/ l 2 l_2 l2范数(文中可能有一些符号不一致的地方,但一定都是指Frobenius范数/ l 2 l_2 l2范数)。
F F F通常表示数域, F m × n F^{m\times n} Fm×n是指元素在数域 F F F内的 m × n m\times n m×n矩阵的集合, F r m × n F^{m\times n}_r Frm×n是指 F m × n F^{m\times n} Fm×n中所有秩为 r r r的矩阵。 Q Q Q、 R R R和 C C C分别表示有理数域、实数域和复数域,本文所讨论的数域仅限于这三种数域。单位矩阵用 I I I表示, n n n阶单位矩阵用 I n I_n In表示。
A H A^H AH是指 A A A的共轭转置。注意 ∀ A ∈ F m × n \forall A\in F^{m\times n} ∀A∈Fm×n,有 A H ∈ F n × m A^H\in F^{n\times m} AH∈Fn×m,这是因为域 F F F( F = Q 或 R 或 C F=Q或R或C F=Q或R或C)中的数取共轭后肯定还在 F F F中,例如实数的共轭是其自身。
我们用 i i i表示虚数单位,用 R e { } Re\{\} Re{
}表示复数的实部, I m { } Im\{\} Im{
}表示复数的虚部。
对矩阵 A A A, R ( A ) R(A) R(A)和 N ( A ) N(A) N(A)分别表示 A A A的列空间和零空间。
接上篇博客,我们讨论极小范数解和最小二乘解问题,在探讨这两个问题之前,先看下相容方程组的定义:
- 定义:关于x的线性方程组 A x = y Ax=y Ax=y称为相容方程组或一致方程,当且仅当该方程组有解
说白了就是给有解方程组起个名称而已。显然齐次线性方程组都是相容的,即都是一致方程。
{1,4}逆与极小范数解
什么是极小范数解?顾名思义,就是范数最小的解。既然极小范数解是一个解,我们当然要在一致方程的范畴中讨论这个问题(后面会讨论非一致方程的极小范数最小二乘解,此时极小范数是另一个含义,不过与此大体相同)。
- 定义:一致方程 A x = y Ax=y Ax=y的极小范数解定义为 x ^ \hat{x} x^满足 ∣ ∣ x ^ ∣ ∣ 2 = min A x = y ∣ ∣ x ∣ ∣ 2 ||\hat{x}||_2=\min_{Ax=y}{||x||_2} ∣∣x^∣∣2=Ax=ymin∣∣x∣∣2
前面已经说过(定理10),一致方程 A m × n x = y A_{m\times{n}}x=y Am×nx=y当 y ≠ 0 y\neq{0} y=0时的通解为 x = A ( 1 ) y , A ( 1 ) ∈ A { 1 } x=A^{(1)}y,A^{(1)}\in{A\{1\}} x=A(1)y,A(1)∈A{
1}。这说明,当我们需要寻找一类特殊解时,可以把目标定在寻找一类特殊的{1}逆上。显然,当 y = 0 y=0 y=0时, A x = y Ax=y Ax=y唯一的极小范数解是 x = 0 x=0 x=0;当 y ≠ 0 y\neq{0} y=0时,我们就可以寻求一类特殊的{1}逆M使得 x = M y x=My x=My是极小范数解。现在,我们来看M应该满足什么样的条件:
(注意极小范数这样的问题属于讨论函数极值的一类问题,需要使用分析学的方法)
- 定理21:设 A ∈ F m × n A\in{F^{m\times{n}}} A∈Fm×n, M ∈ A { 1 } M\in{A\{1\}} M∈A{
1},数域 F F F可以是 R R R或 C C C,则如下两命题等价:
命题(1): ∀ y ∈ F m , x = M y \forall{y}\in{F^m},x=My ∀y∈Fm,x=My是一致方程 A x = y Ax=y Ax=y的极小范数解
命题(2): M A = A + A MA=A^+A MA=A+A
证明:
命题(1)等价于 ∀ b ∈ F m , x = M A b \forall{b}\in{F^m},x=MAb ∀b∈Fm,x=MAb是方程 A x = A b Ax=Ab Ax=Ab的极小范数解。 ∀ b ∈ F m \forall{b\in{F^m}} ∀b∈Fm,方程 A x = A b Ax=Ab Ax=Ab的通解为 x = A + A b + ( I − A + A ) z , z ∈ F n x=A^+Ab+(I-A^+A)z,z\in{F^n} x=A+Ab+(I−A+A)z,z∈Fn。因为 M ∈ A { 1 } M\in{A\{1\}} M∈A{ 1},故必存在 z ^ ∈ F n \hat{z}\in{F^n} z^∈Fn,使得 M A b = A + A b + ( I − A + A ) z ^ MAb=A^+Ab+(I-A^+A)\hat{z} MAb=A+Ab+(I−A+A)z^。为便于分析,引入实值辅助函数 f ( z ) = ∣ ∣ A + A b + ( I − A + A ) z ∣ ∣ 2 , z ∈ F n f(z)=||A^+Ab+(I-A^+A)z||^2,z\in{F^n} f(z)=∣∣A+Ab+(I−A+A)z∣∣2,z∈Fn。
(1) ⇒ \Rightarrow ⇒(2):由命题(1)知, f f f在 z = z ^ z=\hat{z} z=z^处取得最小值。则对 ∀ v ∈ F n \forall{v}\in{F^n} ∀v∈Fn,实值函数 g v ( t ) = f ( z ^ + t v ) , t ∈ R g_v(t)=f(\hat{z}+tv),t\in{R} gv(t)=f(z^+tv),t∈R和 h v ( t ) = f ( z ^ + i t v ) , t ∈ R h_v(t)=f(\hat{z}+itv),t\in{R} hv(t)=f(z^+itv),t∈R都在 t = 0 t=0 t=0处取得最小值。由极值的必要条件, d g v d t ∣ t = 0 = 0 \frac{dg_v}{dt}|_{t=0}=0 dtdgv∣t=0=0且 d h v d t ∣ t = 0 = 0 \frac{dh_v}{dt}|_{t=0}=0 dtdhv∣t=0=0。以 d g v d t \frac{dg_v}{dt} dtdgv为例: d g v d t = d d t ∣ ∣ A + A b + ( I − A + A ) ( z ^ + t v ) ∣ ∣ 2 = d d t ∣ ∣ M A b + t ( I − A + A ) v ∣ ∣ 2 = d d t ( ∣ ∣ M A b ∣ ∣ 2 + t 2 ∣ ∣ ( I − A + A ) v ∣ ∣ 2 + 2 t R e { < M A b , ( I − A + A ) v > } ) = 2 t ∣ ∣ ( I − A + A ) v ∣ ∣ 2 + 2 R e { < M A b , ( I − A + A ) v > } \begin{aligned}\frac{dg_v}{dt}&=\frac{d}{dt}||A^+Ab+(I-A^+A)(\hat{z}+tv)||^2\\&=\frac{d}{dt}||MAb+t(I-A^+A)v||^2\\&=\frac{d}{dt}(||MAb||^2+t^2||(I-A^+A)v||^2+2tRe\{<MAb,(I-A^+A)v>\})\\&=2t||(I-A^+A)v||^2+2Re\{<MAb,(I-A^+A)v>\}\end{aligned} dtdgv=dtd∣∣A+Ab+(I−A+A)(z^+tv)∣∣2=dtd∣∣MAb+t(I−A+A)v∣∣2=dtd(∣∣MAb∣∣2+t2∣∣(I−A+A)v∣∣2+2tRe{ <MAb,(I−A+A)v>})=2t∣∣(I−A+A)v∣∣2+2Re{ <MAb,(I−A+A)v>}当 t = 0 t=0 t=0时, d g v d t = 2 R e { < M A b , ( I − A + A ) v > } = 0 \frac{dg_v}{dt}=2Re\{<MAb,(I-A^+A)v>\}=0 dtdgv=2Re{ <MAb,(I−A+A)v>}=0。同理,当 t = 0 t=0 t=0时, d h v d t = 2 i I m { < M A b , ( I − A + A ) v > } = 0 \frac{dh_v}{dt}=2iIm\{<MAb,(I-A^+A)v>\}=0 dtdhv=2iIm{ <MAb,(I−A