重磅！一文读懂线性方程组的求解方法_行数大于列数分线性方程组长什么样子-CSDN博客

本文链接：https://blog.csdn.net/pingjun5579/article/details/115532008

本文详细总结了线性方程组的解法，包括方阵的直接法（如高斯消去、LU分解等）和迭代法（如雅可比、高斯-赛德尔、SOR），以及非方阵情况下的最小二乘解法。通过正规方程、SVD和QR分解探讨了超定方程组的求解，并讨论了欠定方程组的最小二范数解。内容涵盖数值稳定性、计算量及矩阵秩的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. $A$ 为方阵

$det(A)\neq0$

方程组有唯一解.
$d e t (A) = 0$
- 若 $r (A) < r (A, b)$ ,则方程组无解
- $r (A) = r (A, b) < n$ ,则方程组有无穷多解

求解方法在数值分析这门课程中有详细介绍，可分为两类：

直接法

直接法主要针对低阶稠密矩阵（200阶以内）

Gauss消去法及其改进（列选主元的Gauss消去法）
直接三角分解法（LU分解,LDU分解,Cholesky分解(针对对称正定矩阵),Gauss消去法的代数实质就是LU分解）

迭代法

迭代法主要针对大型矩阵，而且在实际中，这类矩阵通常在结构上有特点，比如稀疏

雅可比迭代法
高斯-赛德尔迭代法
超松弛（SOR）迭代法

2. $A$ 为非方阵且 $A\in R^{m\times n},m>n$

行数大于列数,即方程数目大于未知数个数.此时方程组称为超定方程组,一般来说无精确解,但可以求其最小二乘解.所谓的最小二乘解是指:在欧几里得空间中以2-范数作为距离，使得向量 $A x$ 与 $b$ 之间距离最小的 $x$ .这个问题在优化理论中被称为线性最小二乘问题（这个概念与非线性最小二乘相对应，两者的区别见https://www.jianshu.com/p/bf6ec56e26bd），即我们的目标转换为下式:
$\min_{x\in{R^n}}{{\lVert{Ax-b}\rVert}_{2}}$

先给出三个定理,说明超定方程组最小二乘解的存在性和唯一性

定理1

超定方程组必存在最小二乘解，且 $x$ 是方程组的最小二乘解的充要条件是: $x$ 是 $A^TAx=A^Tb$ 的解
定理2

若 $r (A) = n < m$ ，超定方程组存在唯一最小二乘解
定理3

若 $r (A) < n < m$ ，则超定方程组有无穷多个最小二乘解，其中2-范数最小的解称为方程组的最小二范数解，且该解是唯一的

下面按照 $A$ 的秩分类讨论.

2.1. $r (A) = n < m$

此情形对应于定理2

正规方程法

证明:
${\lVert{Ax-b}\rVert}_2^2={(Ax-b)}^T*(Ax-b)\\ {\lVert{Ax-b}\rVert}_2^2=x^TA^TAx-b^TAx-x^TA^Tb+b^Tb\\ 求导并令导数为0: {\partial{{{\lVert{Ax-b}\rVert}_2}^2}\over{\partial{x}}}=2A^TAx-2A^Tb=0\\ 得到方程:A^TAx=A^Tb\\ 因为r(A^TA)=r(A),所以det(A^TA)\neq0\\ x=(A^TA)^{-1}A^Tb$
$A^TAx=A^Tb$ 称为正规方程组, $A^TA)^{-1}A^T$ 称为广义逆

缺点:

数值不稳定
需要求逆,计算量大

SVD法

这里先给出矩阵的SVD(奇异值分解)的定义:

对于任意给定的 $A\in R^{m\times n}$ ,都存在正交矩阵 $U\in R^{m\times m}$ , $V\in R^{n\times n}$ 使得 $A=USV^T$

其中:

$U$ 的列向量为 $AA^T$ 的特征向量

$V$ 的列向量为 $A^TA$ 的特征向量
$S=\begin{bmatrix} S_1 & 0 \\ 0 & 0 \end{bmatrix}，S\in R^{m\times n}$
$S_1=diag(\sigma_1,...\sigma_r),r=r(A),\sigma_1\geqslant...\geqslant\sigma_r>0,\sigma_i为矩阵A的奇异值$

矩阵的SVD分解是唯一的.

SVD如何应用到最小二乘问题的求解中呢?推导如下:
$\Vert Ax-b\Vert_2^2=\Vert U\begin{bmatrix} S_1 \\0 \end{bmatrix}V^Tx-b\Vert_2^2=\Vert\begin{bmatrix} S_1 \\0 \end{bmatrix}V^Tx-U^Tb\Vert_2^2\\ 对U矩阵进行分块:U=[U_{n},U_{m-n}],则上式\\ =\Vert\begin{bmatrix} S_1 \\0 \end{bmatrix}V^Tx-[U_n,U_{m-n}]^Tb\Vert_2^2\\ =\Vert\begin{bmatrix} S_1 V^Tx-U_n^Tb \\ -U_{m-n}^Tb\end{bmatrix}\Vert_2^2\\ =\Vert S_1 V^Tx-U_n^Tb \Vert_2^2+\Vert U_{m-n}^Tb\Vert_2^2 \geqslant \Vert U_{m-n}^Tb\Vert_2^2$
显然上式在 $\Vert S_1 V^Tx-U_n^Tb \Vert_2^2=0$ 时取得最小值,此时解为:
$x=(S_1 V^T)^{-1}U_n^Tb=VS_1^{-1}U_n^Tb$
$S_1$ 是对角矩阵,求逆非常简单,且 $S_1$ 对角线上的值是按照奇异值由大到小排列的，一般而言前10%的奇异值之和就占到了总和的95%以上，因此实践中我们可以将小于某个阈值的的奇异值及其对应的左右奇异向量全部舍弃掉，进一步缩减矩阵规模

SVD解法是数值稳定的

下面我们特别讨论下超定齐次方程组 $A x = 0$ 的解法,该问题的目标为:
$\min_{x\in{R^n}}{{\lVert{Ax}\Vert}_{2}}\\ s.t\quad \|x\|_2=1$
对 $A$ 进行奇异值分解:
${{\lVert{Ax}\Vert}_{2}}=\|USV^Tx\|_2=\|SV^Tx\|_2\\ 记V^Tx=y\\$
原问题转化为
$\min_{y\in{R^n}}\|Sy\|_2\\s.t\quad\|y\|_2=1$
由于在奇异值分解中, $S$ 矩阵的对角线元素是递减排列的,那么取 $y=[0,0,...1]^T$

此时, $\|Ax\|_2=\sigma_n$ , $x$ 为矩阵 $V$ 的最后一列列向量

QR分解法

这里先介绍QR分解的定义:

对于矩阵 $A\in C^{m\times n},m\geqslant n$ ,存在一个单位列正交矩阵 $Q\in C^{m\times n}$ 和一个上三角矩阵 $R\in C^{n\times n}$ ,使得:
$A = Q R$

若 $A$ 列满秩,并要求 $R$ 的对角线元素都为正,则 $A$ 的 $Q R$ 分解存在且唯一

我们将 $Q$ 扩充成一个正交矩阵,记为 $[Q,Q_{m-n}]\in R^{m\times m}$ ,则推导过程如下:
$\Vert Ax-b\Vert_2^2=\Vert [Q,Q_{m-n}]^T(QRx-b)\Vert_2^2\\ =\|\begin{bmatrix}Rx-Q^Tb\\-Q_{m-n}^Tb\end{bmatrix}\|_2^2\\ =\|Rx-Q^Tb\|_2^2+\|Q_{m-n}^Tb\|_2^2 \geqslant\|Q_{m-n}^Tb\|_2^2$
当且仅当 $Rx=Q^Tb$ 时取得最小值,所以最小二乘解为:
$x=R^{-1}Q^Tb$
QR分解法是数值稳定的

以上三种解法的测试代码:

def TestOverDetermine():

A=np.array([[1,2],[3,4],[5,6]])
x=np.array([7,8]).reshape(-1,1)
b=np.dot(A,x)

x_solve_inverse=np.linalg.inv(A.T@A)@A.T@b  #广义逆
print(x_solve_inverse)

U,S,V=np.linalg.svd(A)        #SVD
V=V.T   #注意调用numpy得到的V是我们公式里的V转置
S=np.diag(S)

x_solve_svd=V@np.linalg.inv(S)@U[:,:2].T@b
print(x_solve_svd)


q,r=np.linalg.qr(A)                  #qr分解
x_solve_qr=np.linalg.inv(r)@q.T@b
print(x_solve_qr)

2.2. $r (A) < n < m$

此情形对应于定理3,此时线性方程组称为亏秩方程组.

同样对 $A$ 进行SVD分解,推导如下:
$\Vert Ax-b\Vert_2^2=\Vert U\begin{bmatrix} S_1&0 \\0&0 \end{bmatrix}V^Tx-b\Vert_2^2=\Vert\begin{bmatrix} S_1&0 \\0&0 \end{bmatrix}V^Tx-U^Tb\Vert_2^2\\ 对V进行矩阵分块:V=[V_r,V_{n-r}]\\ 对U矩阵进行分块:U=[U_{r},U_{m-r}],r=r(A),则上式\\ =\Vert\begin{bmatrix} S_1&0 \\0&0 \end{bmatrix}[V_r,V_{n-r}]^Tx-[U_r,U_{m-r}]^Tb\Vert_2^2\\ =\Vert\begin{bmatrix} S_1 V_r^Tx-U_r^Tb \\ -U_{m-r}^Tb\end{bmatrix}\Vert_2^2\\ =\Vert S_1 V_r^Tx-U_r^Tb \Vert_2^2+\Vert U_{m-r}^Tb\Vert_2^2 \geqslant \Vert U_{m-r}^Tb\Vert_2^2$
显然上式在 $\Vert S_1 V_r^Tx-U_r^Tb \Vert_2^2=0$ 时取得最小值

注意这里 $V_r^T$ 是一个行正交向量,请不要通过直接左乘 $V_rS_1^{-1}$ 进行求解

令 $y_1=V_r^Tx,y_2=V_{n-r}^Tx$ , 则
$y=V^Tx=\begin{bmatrix} y_1 \\y_2 \end{bmatrix}=\begin{bmatrix} S_1^{-1}U_r^Tb \\y_2 \end{bmatrix}$
时 $\Vert Ax-b\Vert_2^2$ 取得最小值.此时 $x=Vy=[V_r,V_{n-r}]\begin{bmatrix} y_1 \\y_2 \end{bmatrix}$

我们取 $y_2=0$ ,此时 $x$ 的范数最小,即方程组的最小二范数解,为 $x=V_rS_1^{-1}U_r^Tb$

3. $A$ 为非方阵且 $A\in R^{m\times n},m<n$

行数小于列数,即方程数目小于未知数个数.此时线性方程组称为欠定方程组.

1. $r (A) = m < n$

此时线性方程组存在无穷多解.类似于亏秩方程组,我们可以得到一个最小二范数解.推导过程也是类似的,这里不再赘述,直接给出结论:

$假设A矩阵的SVD分解为:\\ A= U\begin{bmatrix} S_1&0 \end{bmatrix}V^T=U\begin{bmatrix} S_1&0 \end{bmatrix}[V_m,V_{n-m}]^T\\ 那么最小二范数解为:\\ x=V_mS_1^{-1}U^Tb\\$

测试代码:

def TestUnderDetermine():
    A=np.array([[1,2,3],[4,5,6]])
    x=np.array([7,8,9]).reshape(-1,1)
    b=np.dot(A,x)

    U,S,V=np.linalg.svd(A) 
    S=np.diag(S)
    V=V.T
    
    x_solve=V[:,0:2]@np.linalg.inv(S)@U.T@b
    
    print(x_solve)
    print(A@x_solve)