最小二乘计算时用QR分解的目的是什么?

平和少年

已于 2024-04-10 20:03:49 修改

阅读量1.1k

点赞数 24

分类专栏：信号处理文章标签：算法

于 2024-04-10 08:53:20 首次发布

本文链接：https://blog.csdn.net/u011572784/article/details/137528431

版权

信号处理专栏收录该内容

40 篇文章 2 订阅

订阅专栏

在进行最小二乘算法的计算时，有时候会用到QR分解，你知道为什么吗？最小二乘不是有闭式解吗，QR分解的意义何在？本文告诉你！

1. 最小二乘算法
最小二乘算法是一种以最小化误差平方和为目标来拟合一组系数的方法。设有 $N$ 个目标值 $y_1,...,y_N$ ，每个目标值由 $M$ 个变量 $x_1,...,x_M$ 决定，即 $y_i=\sum_m{\omega_m x_{i,m}}$ 。在已知 $y_1,...,y_N$ 和 $x_1,...,x_M$ 的情况下， $\omega_m$ 该如何取值才能使 $y_i-\sum_m{\omega_m x_{i,m}}$ 误差最小？
我们将上面的问题用矩阵表示：
$\left\{\begin{matrix} y_1=\omega_1x_{1,1}+\omega_2x_{1, 2}+...+\omega_M x_{1,M} \\ y_2=\omega_1x_{2,1}+\omega_2x_{2, 2}+...+\omega_M x_{2,M} \\ \vdots \\ y_N=\omega_1x_{N,1}+\omega_2x_{N, 2}+...+\omega_M x_{N,M} \end{matrix}\right. \rightarrow \mathbf{y=X \omega}$
其中， $\mathbf{y}=[y_1,...,y_N]^T$ 表示目标向量， $\mathbf{\omega}=[\omega_1,...,\omega_N]^T$ 表示系数向量，
$\mathbf{X} = \left[\begin{matrix} x_{1,1} & ... & x_{1,M} \\ x_{2,1} & ... & x_{2,M} \\ \vdots & ... & \vdots \\ x_{N,1} & ... & x_{N,M} \end{matrix} \right]$
当 $\geq M$ 时，方程数目大于未知参数数目，上述方程为超定方程，可以用最小二乘法求解。将上述问题转化为
$\mathbf{\omega}^* = \arg \mathop{\min}\limits_{\mathbf{\omega}} ||\mathbf{y}-\mathbf{X\omega}||^2$
上式的求解过程如下:
$||\mathbf{y}-\mathbf{X\omega}||^2=(\mathbf{y}-\mathbf{X\omega})^T(\mathbf{y}-\mathbf{X\omega})=\mathbf{y^Ty}-2\mathbf{y^TX\omega}+\mathbf{\omega^TX^TX\omega}=J(\mathbf{\omega})\\ \downarrow \\ \frac{dJ(\mathbf{\omega})}{d\mathbf{\omega}}=-2\mathbf{X^Ty}+2\mathbf{X^TX\omega}=0 \\ \downarrow \\ \mathbf{\omega}^*=\mathbf{(X^TX)^{-1}X^Ty}$
可见，最小二乘法有闭式解，可以根据上式直接求得最优系数。

2. QR分解
QR分解是将一个矩阵 $\mathbf{A}$ 分解为一个正交矩阵 $\mathbf{Q}$ 和一个上三角矩阵 $\mathbf{R}$ 的乘积，即 $\mathbf{A=QR}$ 。其中，正交矩阵满足 $\mathbf{QQ^T=I}$ ，上三角矩阵 $\mathbf{R}$ 的形式如下，它在对角线下边的元素全为0。
$\mathbf{R} = \left[\begin{matrix} r_{1,1} & r_{1,2} & ... & r_{1,M} \\ 0 & r_{2, 2} & ... & r_{2,M}\\ \vdots & ... & \vdots & \vdots\\ 0 & 0 & ... & r_{M,M} \end{matrix} \right]$
QR分解可以很方便地进行线性方程组的求解，说明如下：
$\mathbf{Ax=b} \rightarrow \mathbf{QRx=b} \rightarrow \mathbf{Rx=Q^{-1}b=Q^Tb=c}\\ \downarrow \\ \left[\begin{matrix} r_{1,1} & r_{1,2} & ... & r_{1,M} \\ 0 & r_{2, 2} & ... & r_{2,M}\\ \vdots & ... & \vdots & \vdots\\ 0 & 0 & ... & r_{M,M} \end{matrix} \right] \left[\begin{matrix} x_{1}\\ x_{2}\\ \vdots\\ x_{M} \end{matrix} \right]= \left[\begin{matrix} c_{1}\\ c_{2}\\ \vdots\\ c_{M} \end{matrix} \right]\\ \downarrow \\ \left\{\begin{matrix} r_{1,1}x_1+r_{1,2}x_2+...+r_{1,M}x_M=c_1 \\ r_{2,2}x_2+...+r_{2,M}x_M=c_2 \\ \vdots \\ r_{M,M}x_M=c_M \end{matrix}\right.$

3. 条件数
条件数常用于衡量线性方程组的稳定性，条件数越大，矩阵稳定性越差，越接近于病态(奇异矩阵)。线性方程组 $\mathbf{Ax=b}$ 中，我们称 $\mathbf{b}$ 为观测向量， $\mathbf{A}$ 为系数矩阵， $\mathbf{x}$ 为待求向量。我们期望观测向量 $\mathbf{b}$ 和系数矩阵 $\mathbf{A}$ 的微小变化不会引起解向量 $\mathbf{x}$ 的巨大变化，否则若观测向量中有些许噪声就会导致解向量的极大误差。换言之，我们希望线性方程是具备一定的抗噪能力的。首先考察待求向量 $\mathbf{x}$ 受观测向量 $\mathbf{b}$ 的波动的影响。
$\mathbf{Ax=b} \rightarrow \mathbf{A(x+\Delta x)=b+\Delta b}\rightarrow \mathbf{A\Delta x=\Delta b} \rightarrow \mathbf{\Delta x=A^{-1}b} \rightarrow ||\mathbf{\Delta x}|| \leq ||\mathbf{A^{-1}}|||\mathbf{b}||| \\ \mathbf{Ax=b}\rightarrow ||\mathbf{b}|| \leq ||\mathbf{A}||||\mathbf{x}|| \\ \downarrow \\ \frac{||\mathbf{\Delta x}||}{||\mathbf{x}||} \leq (||\mathbf{A}||||\mathbf{A^{-1}}||)\frac{||\mathbf{\Delta b}||}{||\mathbf{b}||}$
下面考虑待求向量 $\mathbf{x}$ 受系数矩阵 $\mathbf{A}$ 的波动的影响：
$(\mathbf{A+\Delta A})(\mathbf{x+\Delta x})=b \rightarrow \mathbf{\Delta x=-A^{-1}\Delta A(x + \Delta x)} \rightarrow ||\Delta x|| \leq ||\mathbf{A^{-1}}||||\mathbf{\Delta A}||||\mathbf{x+\Delta x}|| \\ \downarrow \\ \frac{||\mathbf{\Delta x}||}{||\mathbf{x+\Delta x}||} \leq (||\mathbf{A}||||\mathbf{A^{-1}}||)\frac{||\mathbf{\Delta A}||}{||\mathbf{A}||}$
在上面的表达式中， $\frac{||\mathbf{\Delta b}||}{||\mathbf{b}||}$ 表示观测向量的变化率， $\frac{||\mathbf{\Delta A}||}{||\mathbf{A}||}$ 表示系数向量的变化率, $\frac{||\mathbf{\Delta x}||}{||\mathbf{x}||}$ 表示待求向量的变化率。条件数定义为 $cond(\mathbf{A})=||\mathbf{A}||||\mathbf{A^{-1}}||$ ，显然条件数越大，待求向量的变化受观测向量和系数矩阵变化的影响越大，方程越不稳定。
当上述推导过程中的范数||||取 $l_2$ 范数时，条件数 $cond(\mathbf{A})=\frac{\sigma_{max}}{\sigma_{min}}$ ，其中 $\sigma_{max}$ 和 $\sigma_{min}$ 分别表示矩阵 $\mathbf{A}$ 的最大和最小奇异值。显然， $cond(\mathbf{A})$ 是一个大于或等于1的正数，当矩阵奇异时， $\sigma_{min}=0$ ，此时条件数无穷大。当条件数不是无穷大，但很大时，矩阵接近奇异，此时矩阵的行向量或列向量的线性相关性很强。此外，由条件数的定义可知，正交矩阵或酉矩阵的条件数为1。
对矩阵 $\mathbf{A}$ 进行奇异值分解有 $\mathbf{A=V\Sigma V^H}$ ，对 $\mathbf{A^H A}$ 进行奇异值分解有 $\mathbf{A^H A=V\Sigma^2 V^H}$ ，所以 $\mathbf{A^H A}$ 的最大最小奇异值分别是矩阵 $\mathbf{A}$ 的最大和最小奇异值的平方，所以 $cond(\mathbf{A=V\Sigma V^H})=\frac{\sigma_{max}^2}{\sigma_{min}^2}=cond(\mathbf{A})^2$ ，即矩阵 $\mathbf{A^H A}$ 的条件数是矩阵 $\mathbf{A}$ 的条件数的平方。

4. QR分解在最小二乘计算中的应用
从最小二乘的表达式 $\mathbf{x=(A^TA)^{-1}A^Tb}$ 中，我们可以认为待求向量是方程 $\mathbf{A^TAx=A^Tb}$ 的解。从上面的分析中，我们知道矩阵 $\mathbf{A^H A}$ 的条件数是矩阵 $\mathbf{A}$ 的条件数的平方，所以以矩阵 $\mathbf{A^H A}$ 为系数矩阵的方程相比以 $\mathbf{A}$ 为系数矩阵的方程稳定性更差。如果将矩阵 $\mathbf{A}$ 进行QR分解，并带入上述线性方程中有
$\mathbf{(QR)^T(QR)x=(QR)^Tb}\rightarrow \mathbf{R^TQ^TQRx=R^TQ^Tb}\rightarrow \mathbf{R^TRx=R^TQ^Tb} \rightarrow \mathbf{Rx=Q^Tb} \rightarrow \mathbf{x=R^{-1}Q^Tb}$
即此时将原方程中的系数矩阵 $\mathbf{A^H A}$ 转化成了系数矩阵 $\mathbf{R}$ 。由于 $cond(\mathbf{Q})=1$ , $cond(\mathbf{A})=cond(\mathbf{Q^TA})=cond(\mathbf{Q^TQR})=cond(\mathbf{R})$ ，所以经过QR分解后，将线性方程组的条件数由 $cond(\mathbf{A^TA})$ 转化为了 $cond(\mathbf{A})$ ，可提高方程的稳定性。

5. 计算量对比

6. 仿真验证

平和少年

关注

24
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
最小二乘计算时用QR分解的目的是什么?

当条件数不是无穷大，但很大时，矩阵接近奇异，此时矩阵的行向量或列向量的线性相关性很强。此外，由条件数的定义可知，正交矩阵或酉矩阵的条件数为1。的巨大变化，否则若观测向量中有些许噪声就会导致解向量的极大误差。条件数常用于衡量线性方程组的稳定性，条件数越大，矩阵稳定性越差，越接近于病态(奇异矩阵)。时，方程数目大于未知参数数目，上述方程为超定方程，可以用最小二乘法求解。，显然条件数越大，待求向量的变化受观测向量和系数矩阵变化的影响越大，方程越不稳定。，所以经过QR分解后，将线性方程组的条件数由。
复制链接

扫一扫