householder方法化为Hessenberg矩阵(附Matlab、C代码)

fwfwfwfwfwfwfwfwfw

于 2024-05-27 20:42:27 发布

阅读量3.3k

点赞数 20

文章标签：矩阵 matlab 线性代数

本文链接：https://blog.csdn.net/qq_55009067/article/details/139247088

版权

householder方法化为Hessenberg矩阵

1. Householder 变换¹

Householder 变换也称为初等反射变换，下面先定义 Householder 矩阵。用 Householder 矩阵左乘一个向量（或矩阵），即实现 Householder 变换。设向量 $\mathbf{w}{\in}\mathbf{R}^n$ 并且 $\mathbf{w^{T}}\mathbf{w}=1$ , 称矩阵 $\mathbf{H(w)}=\mathbf{I}-2\mathbf{w}\mathbf{w^\mathrm{T}}$ 为 Householder 矩阵
$\boldsymbol{H}(\boldsymbol{w})=\begin{bmatrix}1-2w_1^2&-2w_1w_2&\cdots&-2w_1w_n\\-2w_2w_1&1-2w_2^2&\cdots&-2w_2w_n\\\vdots&\vdots&\ddots&\vdots\\-2w_nw_1&-2w_nw_2&\cdots&1-2w_n^2\end{bmatrix},w =(w_1, w_2,\cdotp\cdotp\cdotp, w_n)^\mathrm{T}$
定理：设 $\mathbf{x} = {\left\lbrack x_{1},x_{2},{\cdots},x_{n} \right\rbrack}^{\mathrm{T}} {\neq} \mathbf{0}$ , 则存在 Householder 矩阵 $\mathbf{H}$ , 使 $\mathbf{H}\mathbf{x} = {-} \sigma{\mathbf{e}}_{1}$ , 其中,

$\sigma = \operatorname{sign}\left( x_{1} \right){\parallel}\mathbf{x}{{\parallel}}_{2},\quad{\mathbf{e}}_{1} = {\lbrack 1,0,{\cdots},0\rbrack}^{\mathrm{T}},\quad\operatorname{sign}\left( x_{1} \right) = \left\{\begin{array}{ll} 1, & x_{1} {\geq} 0 \\ {-} 1, & x_{1} < 0 \end{array} \right.$

构造满足定理要求的 Householder 矩阵时，可取向量
$=(x+\sigma e_1)/\parallel x+\sigma e_1\parallel_2$

$Hx\:=\:\left(\boldsymbol{I}-2\:\frac{\boldsymbol{v}\:\boldsymbol{v}^\mathrm{T}}{\boldsymbol{v}^\mathrm{T}\:\boldsymbol{v}}\right)\boldsymbol{x}\:=\:\boldsymbol{x}-2\:\frac{\boldsymbol{v}^\mathrm{T}\boldsymbol{x}}{\boldsymbol{v}^\mathrm{T}\boldsymbol{v}}\boldsymbol{v}$

其中 $\mathbf{v}=(x+\sigma e_1)$ ，只需计算向量 v 与 x 的内积，而不需要计算矩阵与向量的乘法

2. 将矩阵化简为上 Hessenberg 矩阵 ²

基本思路是: 先通过 Householder 变换将一般的矩阵 $\mathbf{A}$ 正交相似变换为上 Hessenberg 矩阵, 然后用 QR 算法求上 Hessenberg 矩阵的特征值, 便得到原矩阵的特征值。上 Hessenberg 矩阵形如
$\begin{bmatrix} {\times} & {\times} & {\times} & {\times} \\ {\times} & {\times} & {\times} & {\times} \\ & {\times} & {\times} & {\times} \\ & & {\times} & {\times} \end{bmatrix}$
下面考虑用初等反射阵来正交相似约化一般矩阵和对称矩阵. 设
$\mathbf{A} = \begin{pmatrix} a_{11} & a_{12} & {\cdots} & a_{1n} \\ a_{21} & a_{22} & {\cdots} & a_{2n} \\ {\vdots} & {\vdots} & & {\vdots} \\ a_{n1} & a_{n2} & {\cdots} & a_{nn} \end{pmatrix} {\equiv} \begin{pmatrix} a_{11} & {\mathbf{A}}_{12}^{(1)} \\ {\mathbf{a}}_{21}^{(1)} & {\mathbf{A}}_{22}^{(1)} \end{pmatrix},$
步 1 不妨设 ${\mathbf{a}}_{21}^{(1)} {\neq} \mathbf{0}$ , 否则这一步不需约化, 选择初等反射阵 ${\mathbf{R}}_{1}$ 使 ${\mathbf{R}}_{1}{\mathbf{a}}_{21}^{(1)} =$ ${\sigma}_{1}e_{1}$ , 其中
$\left\{\begin{array}{l} {\sigma}_{1} = \operatorname{sgn}\left( a_{21} \right){\left( \mathop{{\sum}}\limits_{i = 2}^na_{i1}^{2} \right)}^{\frac{1}{2}}, \\ {\mathbf{u}}_{1} = {\mathbf{a}}_{21}^{(1)} + {\sigma}_{1}{\mathbf{e}}_{1}, \\ {\rho}_{1} = \frac{1}{2}{\left. \parallel{\mathbf{u}}_{1} \right.\parallel}_{2}^{2} = {\sigma}_{1}\left( {\sigma}_{1} + a_{21} \right), \\ {\mathbf{R}}_{1} = \mathbf{I} {-} {\rho}_{1}^{{-}1}{\mathbf{u}}_{1}{\mathbf{u}}_{1}^{\mathrm{T}}. \end{array} \right.$
令 ${\mathbf{U}}_{1} = \begin{pmatrix} \mathbf{I} & \mathbf{0} \\ \mathbf{0} & R_{1} \end{pmatrix}$ , 则
${\mathbf{A}}_{2} = {\mathbf{U}}_{1}{\mathbf{A}}_{1}{\mathbf{U}}_{1} = \begin{pmatrix} a_{11} & {\mathbf{A}}_{21}^{(1)}{\mathbf{R}}_{1} \\ {\mathbf{R}}_{1}{\mathbf{a}}_{21}^{(1)} & {\mathbf{R}}_{1}{\mathbf{A}}_{22}^{(1)}{\mathbf{R}}_{1} \end{pmatrix} {\equiv} \begin{pmatrix} {\mathbf{A}}_{11}^{(2)} & {\mathbf{a}}_{12}^{(2)} & {\mathbf{A}}_{13}^{(2)} \\ \mathbf{O} & {\mathbf{a}}_{22}^{(2)} & {\mathbf{A}}_{23}^{(2)} \end{pmatrix},$
其中
${\mathbf{A}}_{11}^{(2)} {\in} {\mathbf{R}}^{2 {\times} 1},\quad{\mathbf{a}}_{22}^{(2)} {\in} {\mathbf{R}}^{n {-} 2},\quad{\mathbf{A}}_{23}^{(2)} {\in} {\mathbf{R}}^{(n {-} 2) {\times} (n {-} 2)}.$
步 $\mathbf{k}$ 设对 $\mathbf{A}$ 已进行了第 $k {-} 1$ 步正交相似约化, 即 ${\mathbf{A}}_{k}$ 有形式

${\mathbf{A}}_{k} = {\mathbf{U}}_{k {-} 1}{\mathbf{A}}_{k {-} 1}{\mathbf{U}}_{k {-} 1} = \begin{bmatrix} a_{11} & a_{12}^{(2)} & {\cdots} & a_{1k}^{(k)} & a_{1, k + 1}^{(k)} & {\cdots} & a_{1n}^{(k)} \\ {-} {\sigma}_{1} & a_{22}^{(2)} & {\cdots} & a_{2k}^{(k)} & a_{2, k + 1}^{(k)} & {\cdots} & a_{2n}^{(k)} \\ & {\ddots} & {\ddots} & {\ddots} & {\vdots} & {\vdots} & {\vdots} \\ & & {\ddots} & {-} {\sigma}_{k {-} 1} & a_{kk}^{(k)} & a_{k, k + 1}^{(k)} & {\cdots} & a_{k, n}^{(k)} \\ {\cdots} & {\cdots} & {\cdots} & {\cdots} & {\cdots} & {\cdots} & {\cdots} \\ & & & & a_{k + 1, k}^{(k)} & a_{k + 1, k + 1}^{(k)} & {\cdots} & a_{k + 1, n}^{(k)} \\ & & & & {\vdots} & {\vdots} & {\vdots} \\ & & & & & a_{nk}^{(k)} & a_{n, k + 1}^{(k)} & {\cdots} & a_{nn}^{(k)} \end{bmatrix}$

${\equiv} \begin{pmatrix} {\mathbf{A}}_{11}^{(k)} & {\mathbf{a}}_{12}^{(k)} & {\mathbf{A}}_{13}^{(k)} \\ \mathbf{O} & {\mathbf{a}}_{22}^{(k)} & {\mathbf{A}}_{23}^{(k)} \end{pmatrix},$

其中
${\mathbf{A}}_{11}^{(k)} {\in} {\mathbf{R}}^{k {\times} (k {-} 1)},\quad{\mathbf{a}}_{22}^{(k)} {\in} {\mathbf{R}}^{n {-} k},\quad{\mathbf{A}}_{23}^{(k)} {\in} {\mathbf{R}}^{(n {-} k) {\times} (n {-} k)}.$

设 ${\mathbf{a}}_{22}^{(k)} {\neq} \mathbf{0}$ , 选择初等反射阵 ${\mathbf{R}}_{k}$ , 使 ${\mathbf{R}}_{k}{\mathbf{a}}_{22}^{(k)} = {-} {\sigma}_{k}{\mathbf{e}}_{1}$ , 其中

$\left\{\begin{array}{l} {\sigma}_{k} = \operatorname{sgn}\left( a_{k + 1, k}^{(k)} \right){\left( \mathop{{\sum}}\limits_{i = k + 1}^na_{ik}^{2} \right)}^{\frac{1}{2}}, \\ {\mathbf{u}}_{k} = {\mathbf{a}}_{22}^{(k)} + {\sigma}_{k}{\mathbf{e}}_{1}, \\ {\rho}_{k} = \frac{1}{2}{\left. \parallel{\mathbf{u}}_{k} \right.\parallel}_{2}^{2} = {\sigma}_{k}\left( {\sigma}_{k} + a_{k + 1, n}^{(k)} \right), \\ {\mathbf{R}}_{k} = \mathbf{I} {-} {\rho}_{k}^{{-}1}{\mathbf{u}}_{k}{\mathbf{u}}_{k}^{\mathrm{T}}. \end{array} \right.$

设 ${\mathbf{U}}_{k} = \begin{pmatrix} \mathbf{I} & \mathbf{O} \\ \mathbf{O} & {\mathbf{R}}_{k} \end{pmatrix}$ , 则

${\mathbf{A}}_{k + 1} = {\mathbf{U}}_{k}{\mathbf{A}}_{k}{\mathbf{U}}_{k} = \begin{pmatrix} {\mathbf{A}}_{11}^{(k)} & {\mathbf{a}}_{12}^{(k)} & {\mathbf{A}}_{13}^{(k)}{\mathbf{R}}_{k} \\ \mathbf{O} & {\mathbf{R}}_{k}{\mathbf{a}}_{22}^{(k)} & {\mathbf{R}}_{k}{\mathbf{A}}_{23}^{(k)}{\mathbf{R}}_{k} \end{pmatrix} = \begin{pmatrix} {\mathbf{A}}_{11}^{(k)} & {\mathbf{a}}_{12}^{(k)} & {\mathbf{A}}_{13}^{(k)}{\mathbf{R}}_{k} \\ \mathbf{O} & {-} {\sigma}_{k}{\mathbf{e}}_{1} & {\mathbf{R}}_{k}{\mathbf{A}}_{23}^{(k)}{\mathbf{R}}_{k} \end{pmatrix}.$

由上式知, ${\mathbf{A}}_{k + 1}$ 的左上角 $k + 1$ 阶子阵为上 Hessenberg 阵, 从而约化又进了一步, 重复这过程, 直到

${\mathbf{U}}_{n {-} 2}{\cdots}{\mathbf{U}}_{2}{\mathbf{U}}_{1}\mathbf{A}{\mathbf{U}}_{1}{\mathbf{U}}_{2}{\cdots}{\mathbf{U}}_{n {-} 2} = \begin{pmatrix} a_{11} & {\times} & {\times} & {\cdots} & {\times} \\ {-} {\sigma}_{1} & a_{22}^{(2)} & {\times} & {\cdots} & {\times} \\ & {-} {\sigma}_{2} & a_{33}^{(3)} & {\ddots} & {\vdots} \\ & & {\ddots} & {\ddots} & {\times} \\ & & & {\ddots} & {\times} \\ & & & & {-} {\sigma}_{n {-} 1} & a_{nn}^{(n {-} 1)} \end{pmatrix} = {\mathbf{A}}_{n {-} 1}.$

定理：如果 ${\in} {\mathbf{R}}^{n {\times} n}$ 为对称阵,则存在初等反射阵 ${\mathbf{U}}_{1},{\mathbf{U}}_{2},{\cdots},{\mathbf{U}}_{n {-} 2}$ ,使

${\mathbf{U}}_{n {-} 2}{\cdots}{\mathbf{U}}_{2}{\mathbf{U}}_{1}\mathbf{A}{\mathbf{U}}_{1}{\mathbf{U}}_{2}{\cdots}{\mathbf{U}}_{n {-} 2} = {\mathbf{A}}_{n {-} 1} = \begin{pmatrix} c_{1} & b_{1} & & & \\ b_{1} & c_{2} & b_{2} & & \\ & {\ddots} & {\ddots} & {\ddots} & \\ & & b_{n {-} 2} & c_{n {-} 1} & b_{n {-} 1} \\ & & & b_{n {-} 1} & c_{n} \end{pmatrix} {\equiv} \mathbf{C}.$

由上面讨论可知,在由 ${\mathbf{A}}_{k} {\rightarrow} {\mathbf{A}}_{k + 1} = {\mathbf{U}}_{k}{\mathbf{A}}_{k}{\mathbf{U}}_{k}$ 一步计算过程中,只需计算 ${\mathbf{R}}_{k}$ 和 ${\mathbf{R}}_{k}{\mathbf{A}}_{22}^{(k)}{\mathbf{R}}_{k}$ . 由于 $\mathbf{A}$ 的对称性,故只需计算 ${\mathbf{R}}_{k}{\mathbf{A}}_{23}^{(k)}{\mathbf{R}}_{k}$ 的对角线下面的元素. 注意到

${\mathbf{R}}_{k}{\mathbf{A}}_{23}^{(k)}{\mathbf{R}}_{k} = \left( \mathbf{I} {-} {\rho}_{k}^{{-}1}{\mathbf{u}}_{k}{\mathbf{u}}_{k}^{\mathrm{T}} \right)\left( {\mathbf{A}}_{23}^{(k)} {-} {\rho}_{k}^{{-}1}{\mathbf{A}}_{23}^{(k)}{\mathbf{u}}_{k}{\mathbf{u}}_{k}^{\mathrm{T}} \right),$
引进记号
${\mathbf{r}}_{k} = {\rho}_{k}^{{-}1}{\mathbf{A}}_{23}^{(k)}{\mathbf{u}}_{k},\quad{\mathbf{t}}_{k} = {\mathbf{r}}_{k} {-} \frac{{\rho}_{k}^{{-}1}}{2}\left( {\mathbf{u}}_{k}^{\mathrm{T}}{\mathbf{r}}_{k} \right){\mathbf{u}}_{k},$

则 $\quad{\mathbf{R}}_{k}{\mathbf{A}}_{23}^{(k)}{\mathbf{R}}_{k} = {\mathbf{A}}_{23}^{(k)} {-} {\mathbf{u}}_{k}{\mathbf{t}}_{k}^{\mathrm{T}} {-} {\mathbf{t}}_{k}{\mathbf{u}}_{k}^{\mathrm{T}}\quad(i = k + 1,{\cdots},n;j = k + 1,{\cdots},i).$

一般矩阵的变换Matlab代码³如下

function [H,P]=hessenb(A)
%使用Householder变换将矩阵A变为Hessenberg矩阵
%[H,P] H为变换后的Hessenberg矩阵，P为变换矩阵
[n,n]=size(A);
E=eye(n);
P1=E;
for k=1:n-2
    s=-sign(A(k+1,k))*norm(A(k+1:n,k));
    W(1:k)=zeros(1,k);
    W(k+1)=(A(k+1,k)+s);
    W(k+2:n)=A(k+2:n,k)';
    if norm(W)~=0
        W=W/norm(W);
    end
    P=E-2*W'*W;
    A=P*A*P;
    P1=P1*P;
end
H=A;
P=P1;

针对实对称矩阵的Matlab代码如下

function [Q,A]=rsmhessenb(A)
%实对称矩阵化为三对角矩阵
n=length(A(:,1));
Q=eye(n);
for i=2:n
    sigma=sign(A(i,i-1))*sqrt(sum(A(i:n,i-1).^2));
    rou=sigma*(A(i,i-1)+sigma);
    A(i,i-1)=A(i,i-1)+sigma;
    R=eye(n-i+1)-1.0/rou*A(i:n,i-1)*A(i:n,i-1)';
    A(i,i-1)=-sigma;
    A(i+1:n,i-1)=0;
    A(i-1,i:n)=A(i:n,i-1);%A^T=A
    A(i:n,i:n)=R*A(i:n,i:n)*R;
    m=length(R(:,1));
    U=[eye(n-m,n-m),zeros(n-m,m);zeros(m,n-m),R];
    Q=Q*U;
end

将三对角化的数学过程转为C语言代码实现

void rsmhessenb(double A[], int n, double Q[],double u[],double t[]) {
    //输入实对称矩阵A->三对角矩阵，输出变换矩阵Q，主对角线u，次对角线t
    int i, j, k;
    double sigma, rou,d;//记录求和值    
    // 初始化Q为单位矩阵
    for (i = 0; i < n; i++) {
        for (j = 0; j < n; j++) {
            Q[i * n + j] = (i == j) ? 1.0 : 0.0;
        }
    }
    for (i = 1; i < n; i++){
        //初始化向量t、u
        for(j=0;j<n;j++){
            t[j]=0.0;
            u[j]=0.0;
        }
        d=0.0;//记录矩阵内积值，每次循环清零
        // 计算sigma
        sigma = 0.0;
        for (j = i; j < n; j++) {
            sigma += A[j * n + i-1] * A[j * n + i-1];
        }
        sigma =(A[i*n+i-1] >= 0) ? sqrt(sigma): -sqrt(sigma);
        // 计算ρ
        rou = sigma * (A[i * n + i - 1] + sigma);
        //构建向量u
        u[i]=sigma+A[i * n + i - 1];
        for(j=i+1;j<n;j++){
            u[j] = A[j*n+i-1];
        }
        //t=A*u/ρ，作为中间过程的r
        for(j=i;j<n;j++){
            for(k=i;k<n;k++){
               t[j]+=A[j*n+k]*u[k]/rou;
        }
        }
        //d=(u^T)*t/(2ρ)
        for(j=i;j<n;j++){
            d+=u[j]*t[j]/2/rou;
        }
        //计算真实的t
        for(j=i;j<n;j++){
            t[j]=t[j]-u[j]*d;
        }
        //计算R*A*R=A-u*(t^T)-t*(u^T)，更新下方矩阵
        for(j=i;j<n;j++){
            for(k=j;k<n;k++){
                A[j*n+k]=A[j*n+k]-u[j]*t[k]-u[k]*t[j];
                if(k!=j){
                    A[k*n+j]=A[j*n+k];//更新对角元素 
                }
                }
            if(j+1<n){
                A[(j+1)*n+i-1]=0.0;//更新0元素
                A[(i-1)*n+j+1]=0.0;
            }
        }
        A[i*n+i-1]=-sigma;//更新次对角线
        A[(i-1)*n+i]=-sigma;
        sigma=0.0;//清零用于变换矩阵的计算
        for(j=0;j<n;j++){
            sigma+=u[j]*u[j];
        }
        //清零用于存储Q*u
        for(j=0;j<n;j++){
            t[j]=0.0;
        }
        //计算Q*u
        for(j=0;j<n;j++){
            for(k=0;k<n;k++){
                t[j]+=Q[j*n+k]*u[k];
            }
        }
        //计算Q*变换矩阵=Q-2*u*(u^T)/sigma        
        for(j=0;j<n;j++){
            for(k=0;k<n;k++){
                Q[j*n+k]=Q[j*n+k]-t[j]*u[k]*2/sigma;
            }
        }
    }
    //返回对角元素
    for (i = 0; i < n; i++) {
        u[i]=A[i*n+i];
        if((i+1)<n){
            t[i]=A[(i+1)*n+i];
        }
    }
}