[矩阵的QR分解系列三] 豪斯霍尔德(Householder)变换

最新推荐文章于 2024-07-21 22:21:35 发布

置顶无比机智的永哥

最新推荐文章于 2024-07-21 22:21:35 发布

阅读量3.3w

点赞数 52

分类专栏：矩阵分解 # 矩阵QR分解文章标签：豪斯霍尔德变换 Householder 反射变换镜像变换 qr分解

本文链接：https://blog.csdn.net/honyniu/article/details/110351391

版权

矩阵分解同时被 2 个专栏收录

11 篇文章 48 订阅

订阅专栏

矩阵QR分解

5 篇文章 5 订阅

订阅专栏

豪斯霍尔德变换

简介
镜像变换
- 反射变换
- 镜像变换
性质
例子
引用

之前介绍的矩阵的三角分解系列介绍了利用矩阵初等变换解决了矩阵三角化问题以及具体的三角分解。但是以初等变换工具的三角分解方法并不能消除病态线性方程组不稳定问题，而且有时候对于可逆矩阵有可能也不存在三角分解。所以后面为了解决这里问题，发展出来了以正交(酉)变换的矩阵的QR(正交三角)分解，矩阵的正交三角分解是一种对任何可逆矩阵均存在理想分解。进行QR分解需要用到施密特(Schmidt)正交规范化，吉文斯(Givens)变换和豪斯霍尔德(Householder)变换等。这里矩阵的QR分解系列教程主要是针对在学习QR分解时候的涉及到的一些细节，包括很多方法的来源和证明等，以及其中用到的一些矩阵操作的基础知识，主要包括：

这个系列后面文章会用到前面文章的理论和技术，所以建议按照顺序查看。

简介

镜像变换或者说是豪斯霍尔德(Householder)变换是一种正交变换，经过多次豪斯霍尔德(Householder)变换可以把矩阵转换成上三角形式，是一种常用的 $\boldsymbol{Q R}$ 分解方式。

镜像变换

反射变换

在平面 $\boldsymbol{R^2}$ 中如果存在变换 $f$ 可以把 $\boldsymbol{\alpha}=x\boldsymbol{e_1} + y\boldsymbol{e_2}$ 转换成 $\boldsymbol{\alpha}^{\prime}=x\boldsymbol{e_1} - y\boldsymbol{e_2}$ ，其中 $(x, y)$ 是在标准正交基 $\boldsymbol{e_1},\boldsymbol{e_2}$ 下的坐标值。这里变换矩阵为
$\boldsymbol{H} = \left[\begin{matrix} 1 & 0 \\ 0 & -1 \end{matrix}\right]$
把 $\boldsymbol{H}$ 称为 $\boldsymbol{R^2}$ 中关于 $x$ 轴的反射阵。那么 $\boldsymbol{R^2}$ 中的向量 $\boldsymbol{\xi}$ 关于 $x$ 轴反射后变为 $\boldsymbol{\eta}$ ，即
$\boldsymbol{\eta} = \boldsymbol{H\xi} = \left[\begin{matrix} 1 & 0 \\ 0 & -1 \end{matrix}\right]\boldsymbol{\xi}.$
同时反射阵 $\boldsymbol{H}$ 可以用与 $x$ 轴正交的单位向量 $\boldsymbol{\omega}=(0,1)^{\mathrm{T}}$ 来表示，即
$\boldsymbol{H} = \left[\begin{matrix} 1 & 0 \\ 0 & -1 \end{matrix}\right] = \left[\begin{matrix} 1 & 0 \\ 0 & 1 \end{matrix}\right] - 2\left[\begin{matrix} 0 \\ 1 \end{matrix}\right](0, 1) = \boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}$

镜像变换

前面介绍了平面 $\boldsymbol{R^2}$ 中向量关于 $x$ 轴的反射阵可以用和 $x$ 轴正交的向量 $\boldsymbol{\omega}$ 来表示，其实这可以推广到一般的反射变换，在平面平面 $\boldsymbol{R^2}$ 中向量关于 $l$ 轴的反射阵 $\boldsymbol{H}$ 可以用 $l$ 轴正交的向量 $\boldsymbol{\omega}$ 来表示。下面就简单推导一下
来自矩阵论(第二版)
如上图所示， $\boldsymbol{\xi}$ 和 $\boldsymbol{\eta}$ 是平面 $\boldsymbol{R^2}$ 上的同样长度的两个向量，其中 $\boldsymbol{\omega}$ 是 $\boldsymbol{\xi - \eta}$ 同方向(虚线表示的向量)的单位向量，可得
$\boldsymbol{\xi - \eta}=2\boldsymbol{\omega(\omega^{\mathrm{T}}\xi)}$
其中 $\boldsymbol{\omega^{\mathrm{T}}\xi}$ 表示向量 $\boldsymbol{\xi}$ 在 $\boldsymbol{\omega}$ 上的投影长度(即内积)。
所以
$\boldsymbol{\eta}=\boldsymbol{\xi} - 2\boldsymbol{\omega(\omega^{\mathrm{T}}\xi)} = (\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})\boldsymbol{\xi}. \tag{1}$
又 $l$ 轴(无方向)和向量 $\boldsymbol{\omega}$ 正交，其实从几何关系上知道向量 $\boldsymbol{\xi}$ 和 $\boldsymbol{\eta}$ 关于 $l$ 轴对称，可以简单证明一下：
上图中旋转坐标系，使 $\boldsymbol{\omega}$ 和 $\boldsymbol{e}_2=(0,1)^{\mathrm{T}}$ 即 $y$ 轴重合，即 $l$ 轴和 $x$ 轴重合。即
$\boldsymbol{\omega} = \left[\begin{matrix} \omega_1 \\ \omega_2 \end{matrix}\right] \Rightarrow \left[\begin{matrix} 0 \\ 1 \end{matrix}\right] = \boldsymbol{e}_2$
令初等旋转矩阵为
$\boldsymbol{Q} = \left[\begin{matrix} cos \theta & sin \theta \\ -sin \theta & cos \theta \end{matrix}\right]$
且 $\boldsymbol{Q}$ 是正交矩阵满足 $\boldsymbol{Q}^{-1} = \boldsymbol{Q}^{\mathrm{T}}$ ，令 $\boldsymbol{H=I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}$ ，所以对公式 $(1)$ 转换得
$\boldsymbol{\eta} =\boldsymbol{H\xi} \Rightarrow \boldsymbol{Q\eta} =\boldsymbol{QHQ^{-1}Q\xi}$
得
$\begin{aligned} \boldsymbol{QHQ^{-1}} &= \boldsymbol{Q}(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})\boldsymbol{Q}^{\mathrm{T}} \\ & = \boldsymbol{I}-2\boldsymbol{Q\omega \omega}^{\mathrm{T}}\boldsymbol{Q}^{\mathrm{T}} \\ & = \boldsymbol{I}-2(\boldsymbol{Q\omega) (Q}\boldsymbol{\omega})^{\mathrm{T}} \\ & = \boldsymbol{I} - 2\left[\begin{matrix} 0 \\ 1 \end{matrix}\right](0, 1) \\ & = \left[\begin{matrix} 1 & 0 \\ 0 & -1 \end{matrix}\right] \end{aligned}$
旋转后的反射阵变成了前面讲解的关于 $x$ 轴的反射阵，所以旋转后的向量 $\boldsymbol{Q\eta}$ 和 $\boldsymbol{Q\xi}$ 是关于 $x$ 轴对称的。所以原始向量 $\boldsymbol{\xi}$ 和 $\boldsymbol{\eta}$ 关于与 $\boldsymbol{\omega}$ 垂直的 $l$ 轴对称的。因此公式 $(1)$ 确定的变换是关于 $l$ 轴的一种反射变换，反射阵为
$\boldsymbol{H} = \boldsymbol{Q^{-1}} \left[\begin{matrix} 1 & 0 \\ 0 & -1 \end{matrix}\right] \boldsymbol{Q}$
上面公式右边三个矩阵都是正交矩阵(正交矩阵的逆也是正交矩阵，所以 $\boldsymbol{Q^{-1}}$ 也是正交矩阵)，所以乘积 $\boldsymbol{H}=\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}$ 也是正交矩阵，同时
$\boldsymbol{H}= det(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})=-1$
所以最终有
定理1
在欧式空间 $\boldsymbol{R}^n$ 中，有线性变换将向量 $\boldsymbol{\xi}$ 映射成与单位向量 $\boldsymbol{\omega}$ 正交的 $n - 1$ 维子空间对称的向量 $\boldsymbol{\eta}$ ，且有
$\boldsymbol{\eta} = (\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})\boldsymbol{\xi} = \boldsymbol{H\xi}$
称这种线性变换为镜像变换或豪斯霍尔德(Householder)变换，其中矩阵
$\boldsymbol{H=I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}. \tag{2}$
称为初等反射矩阵或豪斯霍尔德(Householder)矩阵。

性质

基本性质

有 $\boldsymbol{H=I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}$ 是欧式空间 $\boldsymbol{R}^n$ 中的初等反射矩阵，则有该矩阵有以下性质

$\boldsymbol{H}$ 是对称的正交矩阵；
$\boldsymbol{H}= det(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})=-1$ .

性质1证明
有 $\boldsymbol{H} = \boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}} = \boldsymbol{I}^{\mathrm{T}}-(2\boldsymbol{\omega \omega}^{\mathrm{T}})^{\mathrm{T}} =(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})^{\mathrm{T}} = \boldsymbol{H}^{\mathrm{T}}$ ，矩阵 $\boldsymbol{H}$ 是对称矩阵。
又有
$\begin{aligned} \boldsymbol{H}^{\mathrm{T}}\boldsymbol{H} &= (\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})^{\mathrm{T}}(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})=(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})^2 \\ &= \boldsymbol{I}-4\boldsymbol{\omega \omega}^{\mathrm{T}}+4\boldsymbol{\omega (\omega^{\mathrm{T}}\omega)\omega^{\mathrm{T}}} \\ &=\boldsymbol{I}-4\boldsymbol{\omega \omega}^{\mathrm{T}}+4\boldsymbol{\omega \omega}^{\mathrm{T}}=\boldsymbol{I} \end{aligned}$
得证。
性质2证明
和上面类似，通过有限次的旋转可使 $\boldsymbol{\omega}$ 的第一个分了为正，其余分量全为零，而且 $\boldsymbol{\omega}$ 是单位向量，即转换为 $\boldsymbol{e}_1=(1,0,\cdots,0)^{\mathrm{T}}$ ，具体可参考[矩阵的QR分解系列二] 吉文斯(Givens)变换介绍。这里令这些有限次的旋转为 $\boldsymbol{Q}$ ，则 $\boldsymbol{Q\omega=e}_1$ ，同时 $\boldsymbol{Q}$ 是正交矩阵。
又
$\boldsymbol{\eta} =\boldsymbol{H\xi} \Rightarrow \boldsymbol{Q\eta} =\boldsymbol{QHQ^{-1}Q\xi}$
得
$\begin{aligned} \boldsymbol{QHQ^{-1}} &= \boldsymbol{Q}(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})\boldsymbol{Q}^{\mathrm{T}} \\ & = \boldsymbol{I}-2\boldsymbol{Q\omega \omega}^{\mathrm{T}}\boldsymbol{Q}^{\mathrm{T}} = \boldsymbol{I}-2(\boldsymbol{Q\omega) (Q}\boldsymbol{\omega})^{\mathrm{T}} \\ & = \boldsymbol{I}-2 \left[\begin{matrix} 1 \\ 0 \\ \vdots \\ 0 \end{matrix}\right] (1, 0, \cdots, 0) \\ & = \left[\begin{matrix} -1 \\ & 1 \\ & & \ddots \\ & & & 1 \end{matrix}\right] \end{aligned}$
所以
$\boldsymbol{Q\eta} = \left[\begin{matrix} -1 \\ & 1 \\ & & \ddots \\ & & & 1 \end{matrix}\right] \boldsymbol{Q\xi}$
对于旋转后的向量 $\boldsymbol{Q\eta}$ 和 $\boldsymbol{Q\xi}$ 而言，仅第一个分量在上面的变换下改变了符号，也就是说 $\boldsymbol{Q\eta}$ 可以看作是 $\boldsymbol{Q\xi}$ 关于与 $\boldsymbol{e}_1$ 正交的 $n - 1$ 维子空间的镜像。
又
$\boldsymbol{H} = \boldsymbol{Q^{-1}} \left[\begin{matrix} -1 \\ & 1 \\ & & \ddots \\ & & & 1 \end{matrix}\right] \boldsymbol{Q}$
右边每个矩阵都是正交矩阵，所以 $\boldsymbol{H}$ 也是正交矩阵，且
$\boldsymbol{H}= det(\boldsymbol{I}-2\boldsymbol{\omega \omega}^{\mathrm{T}})=-1$
得证。

目标方向旋转

定理
镜像变换可以使任何非零向量 $\boldsymbol{\xi}$ 变成与给定单位向量 $\boldsymbol{\zeta}$ 同方向的向量 $\boldsymbol{\eta}$ 。

这也是后面为消元做准备，主要目前是怎么利用提供的 $\boldsymbol{\zeta}$ 求 $\boldsymbol{\omega}$ 。
证明
根据之前的图像可知
$\begin{aligned} \boldsymbol{\eta} &= |\boldsymbol{\xi}|\boldsymbol{\zeta}, and \\ \boldsymbol{\omega^{\mathrm{T}}\xi} &= (\boldsymbol{\omega},\boldsymbol{\xi}) = \boldsymbol{\omega} \cdot \boldsymbol{\xi} \\ & = |\boldsymbol{\omega}| |\boldsymbol{\xi}|cos(\boldsymbol{\omega}, \boldsymbol{\xi}) \\ &= \frac{1}{2}|\boldsymbol{\xi}-\boldsymbol{\eta}| \end{aligned}$
又由 $\boldsymbol{\xi - \eta}=2\boldsymbol{\omega(\omega^{\mathrm{T}}\xi)}$ ，从而得
$\boldsymbol{\omega} = \frac{\boldsymbol{\xi - \eta}}{2\boldsymbol{(\omega^{\mathrm{T}}\xi)}} = \frac{\boldsymbol{\xi - \eta}}{|\boldsymbol{\xi}-\boldsymbol{\eta}|} = \frac{\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}}{|\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}|}. \tag{3}$
记住这个公式，后面求 $\boldsymbol{QR}$ 分解会用到。
然后又有 $\boldsymbol{H=I}-2\boldsymbol{\omega \omega}^{\mathrm{T}}$ 得
$\begin{aligned} \boldsymbol{\eta} &= \boldsymbol{H\xi} \\ &=(\boldsymbol{I} - 2\frac{(\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}})(\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}})^{\mathrm{T}}}{|\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}|^2}) \boldsymbol{\xi} \\ &= \boldsymbol{\xi} - 2(\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}},\boldsymbol{\xi})\frac{\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}}{|\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}|^2} \\ &= \boldsymbol{\xi} - (\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}) = |\boldsymbol{\xi}|\boldsymbol{\zeta} \end{aligned}$
其中利用下面的等式
$\begin{aligned} 2(\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}},\boldsymbol{\xi}) &= 2(\boldsymbol{\xi - \eta},\boldsymbol{\xi}) \\ &= 2|\boldsymbol{\xi}|cos(\boldsymbol{\xi - \eta}, \boldsymbol{\xi})|\boldsymbol{\xi - \eta}| = 2|\boldsymbol{\xi}|cos(\boldsymbol{\omega}, \boldsymbol{\xi})|\boldsymbol{\xi - \eta}| \\ &= |\boldsymbol{\xi - \eta}|^2 = |\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}|^2 \end{aligned}$
得证。

初等反射矩阵转初等旋转矩阵

定理
初等旋转矩阵(变换)是两个初等反射矩阵(变换)的乘积。
证明
对于初等旋转矩阵
$\boldsymbol{R}_{i j} = \left[\begin{matrix} 1 \\ & \ddots \\ & & 1 \\ & & & c & 0 & \cdots & 0 & s \\ & & & 0 & 1 & \cdots & 0 & 0 \\ & & & \vdots & \vdots & & \vdots & \vdots \\ & & & 0 & 0 & \cdots & 1 & 0 \\ & & & -s & 0 & \cdots & 0 & c \\ & & & & & & & & 1 \\ & & & & & & & & & \ddots \\ & & & & & & & & & & 1 \end{matrix}\right]$
(1) 取单位向量
$\boldsymbol{\omega} = (0,\cdots,0,sin \frac{\theta}{4},0,\cdots,0,cos \frac{\theta}{4},0,\cdots,0)^{\mathrm{T}}$
其中 $\boldsymbol{\omega}_i = sin \frac{\theta}{4},\boldsymbol{\omega}_j = cos \frac{\theta}{4}$ 。
根据公式 $(2)$ 构造初等反射阵
$\begin{aligned} \boldsymbol{H}_1& = \boldsymbol{I} - 2\boldsymbol{\omega \omega}^{\mathrm{T}} \\ &=\left[\begin{matrix} 1 \\ & \ddots \\ & & 1 \\ & & & cos \frac{\theta}{2} & 0 & \cdots & 0 & -sin \frac{\theta}{2} \\ & & & 0 & 1 & \cdots & 0 & 0 \\ & & & \vdots & \vdots & & \vdots & \vdots \\ & & & 0 & 0 & \cdots & 1 & 0 \\ & & & -sin \frac{\theta}{2} & 0 & \cdots & 0 & -cos \frac{\theta}{2} \\ & & & & & & & & 1 \\ & & & & & & & & & \ddots \\ & & & & & & & & & & 1 \end{matrix}\right] \end{aligned}$
(2) 再取单位向量
$\boldsymbol{\omega}^{\prime} = (0,\cdots,0,sin \frac{3\theta}{4},0,\cdots,0,cos \frac{3\theta}{4},0,\cdots,0)^{\mathrm{T}}$
其中 $\boldsymbol{\omega}_i^{\prime} = sin \frac{\theta}{4},\boldsymbol{\omega}_j^{\prime} = cos \frac{\theta}{4}$ 。
根据公式 $(2)$ 构造初等反射阵
$\begin{aligned} \boldsymbol{H}_2& = \boldsymbol{I} - 2\boldsymbol{\omega^{\prime} \omega^{\prime}}^{\mathrm{T}} \\ &=\left[\begin{matrix} 1 \\ & \ddots \\ & & 1 \\ & & & cos \frac{3\theta}{2} & 0 & \cdots & 0 & -sin \frac{3\theta}{2} \\ & & & 0 & 1 & \cdots & 0 & 0 \\ & & & \vdots & \vdots & & \vdots & \vdots \\ & & & 0 & 0 & \cdots & 1 & 0 \\ & & & -sin \frac{3\theta}{2} & 0 & \cdots & 0 & -cos \frac{3\theta}{2} \\ & & & & & & & & 1 \\ & & & & & & & & & \ddots \\ & & & & & & & & & & 1 \end{matrix}\right] \end{aligned}$
可以验证有 $\boldsymbol{R}_{i j}=\boldsymbol{H}_2\boldsymbol{H}_1$ 。
所以说初等反射矩阵比初等旋转矩阵更加基本。

例子

用镜像变化把向量 $\boldsymbol{\xi}=(0,3,0,4)^{\mathrm{T}}$ 变为与向量 $\boldsymbol{e}_1=(1,0,0,0)^{\mathrm{T}}$ 同方向的向量。
解：
用上面的公式 $(3)$ 可得
$\begin{aligned} \boldsymbol{\omega} &= \frac{\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}}{|\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{\zeta}}|} = \frac{\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{e}_1}}{|\boldsymbol{\xi - |\boldsymbol{\xi}|\boldsymbol{e}_1}|} \\ &=\frac{(-5,3,0,4)^{\mathrm{T}}}{|(-5,3,0,4)^{\mathrm{T}}|} \\ &=(-\frac{1}{\sqrt{2}},\frac{3}{5\sqrt{2}},0,\frac{4}{5\sqrt{2}})^{\mathrm{T}} \end{aligned}$
则镜像变换的豪斯霍尔德(Householder)矩阵为
$\boldsymbol{H=I}-2\boldsymbol{\omega \omega}^{\mathrm{T}} = \left[\begin{matrix} 0 & \frac{3}{5} & 0 & \frac{4}{5} \\ \frac{3}{5} & \frac{16}{25} & 0 & -\frac{12}{25} \\ 0 & 0 & 1 & 0 \\ \frac{4}{5} & -\frac{12}{25} & 0 & \frac{9}{25} \end{matrix}\right]$
所以
$\boldsymbol{\eta} = \boldsymbol{H\xi} = (5,0,0,0)^{\mathrm{T}} = 5\boldsymbol{e}_1.$