QR算法：矩阵特征值计算的基石

原创于 2025-10-27 22:50:57 发布 · 764 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #矩阵 #决策树 #QR算法 #特征值 #特征向量 #人工智能

人工智能同时被 3 个专栏收录

368 篇文章

订阅专栏

OTHER

338 篇文章

订阅专栏

Python

332 篇文章

订阅专栏

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！

1 引言：特征值问题的终极解法

QR算法是数值线性代数中计算矩阵特征值和特征向量最重要、最强大的算法之一。自1961年由John G.F. Francis和Vera N. Kublanovskaya独立提出以来，QR算法已成为解决中小规模矩阵特征值问题的标准方法，在科学计算、工程分析和机器学习中发挥着不可替代的作用。

与幂法、反幂法等只能计算单个特征值的算法不同，QR算法能够同时计算矩阵的所有特征值，并且具有立方收敛速度和良好的数值稳定性。这种算法的核心思想简单而深刻：通过一系列正交相似变换，将原始矩阵逐步转化为上三角矩阵（或实矩阵的拟上三角矩阵），从而直接读取特征值。

QR算法的美妙之处在于它将复杂的特征值问题转化为一系列简单的QR分解，这种迭代细化的过程就像剥洋葱一样，一层层揭示矩阵的内在特征结构。

本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！
往期文章推荐:
往期文章推荐:

2 历史渊源与发展历程

2.1 贡献

QR算法的历史可以追溯到1961-1962年，两位数学家几乎同时独立提出了这一革命性算法：

John G.F. Francis（英国数学家）在1961-1962年的两篇论文中系统提出了QR算法：

Francis, J. G. F. (1961). The QR Transformation: A Unitary Analogue to the LR Transformation. The Computer Journal, 4(3), 265-271.

Francis, J. G. F. (1962). The QR Transformation Part II. The Computer Journal, 4(4), 332-345.

同时，苏联数学家Vera N. Kublanovskaya也独立提出了类似方法：

Kublanovskaya, V. N. (1961). On some algorithms for the solution of the complete eigenvalue problem. USSR Computational Mathematics and Mathematical Physics, 1(3), 637-657.

2.2 算法的发展与完善

QR算法提出后，经过多位数学家的改进和完善：

Wilkinson 提出了位移策略，显著加速收敛
Golub 和Van Loan 在《Matrix Computations》中系统总结了QR算法的理论与实践
Demmel 等人研究了QR算法的并行实现和高精度计算

如今，QR算法已成为LAPACK、MATLAB、NumPy等科学计算库中特征值计算的核心算法。

3 QR算法的数学原理

3.1 基本QR迭代

QR算法的基本思想异常简洁。给定矩阵A，基本QR迭代过程如下：

对A进行QR分解：A = QR
计算新矩阵：A₁ = RQ
重复此过程：Aₖ = QₖRₖ, Aₖ₊₁ = RₖQₖ

这个简单迭代的数学魔力在于：每个Aₖ都与原始矩阵A相似，因为：

Aₖ₊₁ = RₖQₖ = QₖᵀAₖQₖ

因此所有Aₖ具有相同的特征值。在满足一定条件下，Aₖ会收敛到上三角矩阵（或实矩阵的Schur型），其对角线元素就是A的特征值。

3.2 收敛性分析

QR算法的收敛性基于一个深刻的数学事实：QR迭代本质上等同于同时进行正交迭代和反迭代。对于满足特定条件的矩阵，QR算法具有全局收敛性。

收敛速度取决于特征值之间的比值。如果特征值满足 | λ₁ | > | λ₂ | > … > | λₙ | ，则收敛速度是线性的，收敛速率由 | λᵢ₊₁/λᵢ | 决定。

4 实用QR算法的关键技术

4.1 预处理：化为Hessenberg型

为了提高计算效率，实际QR算法首先将矩阵通过相似变换化为上Hessenberg型（几乎上三角矩阵，只有次对角线可能非零）：

import numpy as np

def hessenberg_reduction(A):
    """
    将矩阵A通过相似变换化为上Hessenberg型
    使用Householder变换
    """
    A = A.astype(float)
    n = A.shape[0]

    for k in range(n-2):
        # 计算Householder变换
        x = A[k+1:, k]
        v = x.copy()
        v[0] += np.sign(x[0]) * np.linalg.norm(x)

        if np.linalg.norm(v) > 1e-14:
            v = v / np.linalg.norm(v)

            # 应用Householder变换
            # A[k+1:, k:] = A[k+1:, k:] - 2 * np.outer(v, v.T @ A[k+1:, k:])
            # A[:, k+1:] = A[:, k+1:] - 2 * np.outer(A[:, k+1:] @ v, v.T)

            # 简化实现
            for j in range(k, n):
                A[k+1:, j] -= 2 * v * np.dot(v, A[k+1:, j])
            for i in range(n):
                A[i, k+1:] -= 2 * np.dot(A[i, k+1:], v) * v

    return A

# 测试Hessenberg化
A = np.random.rand(5, 5)
A = (A + A.T) / 2  # 对称矩阵确保实特征值
H = hessenberg_reduction(A)

print("原始矩阵A:")
print(A)
print("\nHessenberg型矩阵H:")
print(H)
print(f"\nH是否为上Hessenberg型: {np.allclose(H, np.triu(H, -1))}")

化为Hessenberg型后，QR迭代的计算复杂度从O(n³)降低到O(n²)，并且保持了数值稳定性。

4.2 位移策略：加速收敛的魔法

基本QR算法收敛较慢，位移策略是加速收敛的关键技术。常用的位移策略包括：

4.2.1 单步位移（Rayleigh商位移）

取位移量μₖ = Aₖ[n,n]，即矩阵右下角元素。

4.2.2 双步位移（Wilkinson位移）

对于实矩阵，使用右下角2×2子矩阵的特征值作为位移量，避免引入复数运算。

位移QR迭代的基本步骤：

选择位移量μₖ
计算QR分解：Aₖ - μₖI = QₖRₖ
更新矩阵：Aₖ₊₁ = RₖQₖ + μₖI

位移策略的魔力在于：它能够加速最后几行和列的收敛，特别是当特征值有较大差异时。

6 QR算法的变体与扩展

6.1 隐式QR算法

为了保持数值稳定性，现代QR算法通常使用隐式QR迭代，它不需要显式计算Aₖ - μₖI，而是通过** bulge chasing**（ bulge追赶）技术在Hessenberg矩阵中直接实现QR迭代。

6.2 分治算法

对于对称三对角矩阵，分治算法将矩阵分割为小块，分别计算特征值，然后通过秩1修正合并结果，具有O(n²)的时间复杂度。

6.3 多重位移QR算法

对于大型矩阵，多重位移QR算法通过一次迭代引入多个位移，进一步提高计算效率。

7 QR算法在机器学习中的应用

7.1 主成分分析（PCA）

QR算法可用于计算协方差矩阵的特征值，这是PCA的核心步骤：

from sklearn.decomposition import PCA
from sklearn.datasets import load_iris

def pca_with_qr(X):
    """
    使用QR算法进行PCA特征值计算
    """
    # 中心化数据
    X_centered = X - np.mean(X, axis=0)

    # 计算协方差矩阵
    cov_matrix = np.cov(X_centered, rowvar=False)

    # 使用QR算法计算特征值
    eigenvalues = qr_algorithm(cov_matrix)

    return eigenvalues

# 加载鸢尾花数据集
iris = load_iris()
X = iris.data

print("🌸 PCA特征值计算示例")
print("=" * 50)

# 使用QR算法计算特征值
eigenvalues_qr = pca_with_qr(X)
print(f"QR算法计算的特征值: {eigenvalues_qr}")

# 使用Scikit-learn PCA作为对比
pca = PCA()
pca.fit(X)
print(f"Scikit-learn PCA特征值: {pca.explained_variance_}")

# 计算相对误差
error = np.linalg.norm(np.sort(eigenvalues_qr) - np.sort(pca.explained_variance_))
print(f"特征值计算误差: {error:.2e}")