主成分分析 PCA

在数据科学领域,我们经常需要处理大量的数据。为了更好地理解和分析数据,降低维度、减少冗余信息并提取关键特征变得至关重要。而主成分分析(Principal Component Analysis,PCA)正是一种有效的降维技术,被广泛应用于数据挖掘、图像处理、模式识别等领域。

目录

PCA简介

什么是PCA

PCA的基本原理和目标

PCA与其他降维技术的比较

PCA的应用场景

PCA的数学原理

协方差和散度矩阵

特征值分解矩阵原理

SVD分解矩阵原理

PCA算法两种实现方法

基于特征值分解协方差矩阵实现PCA算法

基于SVD分解协方差矩阵实现PCA算法

PCA实例


PCA简介

什么是PCA

        主成分分析(Principal Component Analysis,简称PCA)是一种常用的数据降维技术和统计分析方法。它通过线性变换将原始数据转换为一组新的正交变量,称为主成分,使得在这些主成分上数据的方差最大化。主成分分析可以用于数据压缩、数据可视化、特征提取和降低数据维度等任务。

        通过主成分分析,我们可以将高维的数据集投影到低维的子空间上,从而实现数据的降维。降维后的数据集可以更好地可视化,同时减少了数据的维度,使得后续的数据分析和模型建立过程更加高效。

PCA的基本原理和目标

        主成分分析的基本思想是找到能够最好地保留原始数据信息的投影方向。首先,计算原始数据的协方差矩阵,然后通过特征值分解或奇异值分解等方法,求解出协方差矩阵的特征值和特征向量。特征向量构成了投影方向,而对应的特征值表示了每个投影方向上的方差。选取方差较大的特征值对应的特征向量作为主成分,即对数据进行降维的方向。主成分分析(PCA)的基本原理是通过线性变换将原始数据转化为一组新的正交变量,称为主成分,以使得在这些主成分上数据的方差最大化。

        PCA的目标是在保持数据的信息损失最小的情况下,将高维数据降维到低维空间

  1. 数据中心化:首先,对原始数据进行中心化处理,即将每个维度的数据减去该维度上的均值,使得数据的均值为零。

  2. 计算协方差矩阵:通过计算中心化后的数据的协方差矩阵,可以得到各个维度之间的相关性信息。

  3. 特征值分解:对协方差矩阵进行特征值分解或奇异值分解,求解出协方差矩阵的特征值和对应的特征向量。

  4. 选择主成分:按照特征值的大小排序,选择方差较大的特征值对应的特征向量作为主成分。主成分的选择通常是按照特征值的累计贡献率进行确定,选择能够解释大部分数据方差的主成分。

  5. 数据投影:将原始数据投影到选定的主成分上,得到降维后的数据。投影后的数据在保持尽可能多的信息的同时,降低了数据的维度。

PCA与其他降维技术的比较

PCA(主成分分析)是一种广泛使用的降维技术,但也存在其他一些常见的降维方法。下面是PCA与其他降维技术进行比较的几个方面:

  1. 数据投影方式:

    • PCA:通过线性变换将原始数据投影到新的正交特征空间上。
    • LLE(局部线性嵌入):通过在局部邻域内保持样本之间的线性关系来进行非线性降维。
    • t-SNE(t分布随机近邻嵌入):通过保持样本之间的相似性来进行非线性降维,注重保留局部结构。
  2. 保留信息量:

    • PCA:通过最大化投影数据的方差来保留尽可能多的信息。
    • LDA(线性判别分析):通过最大化类别间距离和最小化类别内部方差来实现有监督的降维,强调类别信息的保留。
    • AE(自动编码器):通过神经网络进行非线性编码和解码,旨在重构原始数据,保留重要特征。
  3. 计算复杂度:

    • PCA:计算主成分的特征值和特征向量需要对协方差矩阵进行特征值分解,计算复杂度较高。
    • LLE:计算复杂度较低,但需要构建权重矩阵和求解局部线性关系的权重。
    • t-SNE:计算复杂度较高,特别是在大数据集上的应用。
  4. 非线性降维能力:

    • PCA:主要适用于线性数据结构,对于非线性数据结构的表示能力有限。
    • LLE、t-SNE、Isomap等:具有非线性降维能力,可以处理更复杂的数据结构。
  5. 可解释性:

    • PCA:生成的主成分是原始特征的线性组合,可以解释原始数据的方差贡献。
    • LDA:通过类别间距离最大化,可以保留类别信息,方便分类器的解释。
    • t-SNE:主要用于可视化数据,可以呈现数据的局部结构,但不易解释。

PCA的应用场景

PCA算法常见的应用场景:

  1. 图像处理:图像通常包含大量冗余信息,使用PCA算法可以将图像数据降维,减少存储空间和计算时间,并提取出图像的主要特征。

  2. 信号处理:信号也常常包含大量的冗余信息,通过PCA算法可以压缩信号数据,并提取出信号的主要特征,便于后续的分类、识别等任务。

  3. 数据挖掘:在大规模数据集中,常常存在大量的冗余或无用信息,使用PCA算法可以减少数据的维度,提取关键特征,并便于后续的分类、聚类、回归等分析任务。

  4. 机器学习:在大规模的机器学习任务中,使用PCA算法可以对数据进行降维,减少特征数量,避免过拟合和提高模型的泛化能力。

  5. 生物医学:在生物医学领域中,常常需要对大量的基因或蛋白质数据进行分析,使用PCA算法可以提取出主要的生物特征,并便于后续的分类、聚类、疾病诊断等任务。

PCA算法在数据降维、特征提取等方面发挥了重要作用,广泛应用于各个领域。

PCA的数学原理

协方差和散度矩阵

样本均值:

\bar{x}=\frac{1}{n}\sum_{i=1}^{N}x_{i}

样本方差:

S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}

样本X和样本Y的协方差:

cov(X,Y)=E\left [ (X-E(X))(Y-E(Y)) \right ]=\frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})

由此可以得出:

方差的计算公式是针对一维特征,即针对同一特征不同样本的取值来进行计算得到;而协方差则必须要求至少满足二维特征;方差是协方差的特殊情况。

方差和协方差的除数是n-1,这是为了得到方差和协方差的无偏估计。

协方差为正时,说明X和Y是正相关关系;协方差为负时,说明X和Y是负相关关系;协方差为0时,说明X和Y是相互独立。Cov(X,X)就是X的方差。当样本是n维数据时,它们的协方差实际上是协方差矩阵(对称方阵)。

散度矩阵定义为:

S=\sum_{k=1}^{n}(x_{k}-m)(x_{k}-m)^{T}

协方差矩阵和散度矩阵关系密切,散度矩阵就是协方差矩阵乘以(总数据量-1)。因此它们的特征值特征向量是一样的。这里值得注意的是,散度矩阵是SVD奇异值分解的一步,因此PCA和SVD是有很大联系

特征值分解矩阵原理

(1) 特征值与特征向量

如果一个向量v是矩阵A的特征向量,将一定可以表示成下面的形式:

Av=\lambda v

其中,λ是特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。

(2) 特征值分解矩阵

对于矩阵A,有一组特征向量v,将这组向量进行正交化单位化,就能得到一组正交单位向量。特征值分解,就是将矩阵A分解为如下式:

A=Q\sum Q^{-1}

其中,Q是矩阵A的特征向量组成的矩阵,Σ则是一个对角阵,对角线上的元素就是特征值。

SVD分解矩阵原理

奇异值分解是一个能适用于任意矩阵的一种分解的方法,对于任意矩阵A总是存在一个奇异值分解:

A=U\sum V^{T}

假设A是一个m*n的矩阵,那么得到的U是一个m*m的方阵,U里面的正交向量被称为左奇异向量。Σ是一个m*n的矩阵,Σ除了对角线其它元素都为0,对角线上的元素称为奇异值。 V^{T}是v的转置矩阵,是一个n*n的矩阵,它里面的正交向量被称为右奇异值向量。而且一般来讲,我们会将Σ上的值按从大到小的顺序排列。

SVD分解矩阵A的步骤:

(1) 求AA^{T} 的特征值和特征向量,用单位化的特征向量构成 U。

(2) 求A^{T}A的特征值和特征向量,用单位化的特征向量构成 V。

(3) 将 AA^{T} 或者A^{T}A的特征值求平方根,然后构成 Σ。

PCA算法两种实现方法

基于特征值分解协方差矩阵实现PCA算法

基于特征值分解的PCA算法实现步骤:

1.根据输入数据集X构建协方差矩阵C,即

C=(X-mean(x))*\frac{(X-mean(X))'}{(n-1)}

其中mean(X)为X的均值向量,n为样本数。

2.对协方差矩阵C进行特征值分解,得到特征值和对应的特征向量。可使用标准的特征值分解方法或其他更高效的方法。

3.将特征值按从大到小排序,并选择前k个最大的特征值对应的特征向量,组成特征向量矩阵W。

4.将原始数据集X乘以特征向量矩阵W,得到降维后的数据集Y=X*W

需要注意的是,在实际应用中,可能需要对数据进行预处理(例如去均值、归一化等)以获得更好的结果。C=(X-mean(x))*\frac{(X-mean(X))'}{(n-1)}

基于SVD分解协方差矩阵实现PCA算法

基于奇异值分解(Singular Value Decomposition,SVD)协方差矩阵实现PCA算法的步骤:

根据输入数据集X构建协方差矩阵C,即

C=(X-mean(x))*\frac{(X-mean(X))'}{(n-1)}

其中mean(X)为X的均值向量,n为样本数。

2.对协方差矩阵C进行奇异值分解,得到C的奇异值和对应的奇异向量。奇异值分解可以表示为

C*U*S*V'

其中U和V分别是C的左奇异向量和右奇异向量,S是对角矩阵,对角线上的元素为C的奇异值。

3.将奇异值按从大到小排序,并选择前k个最大的奇异值对应的奇异向量,组成奇异向量矩阵U_k。

4.将原始数据集X乘以奇异向量矩阵U_k,得到降维后的数据集Y = X * U_k

需要注意的是,在实际应用中,可能需要对数据进行预处理(例如去均值、归一化等)以获得更好的结果。同时,SVD方法相对于特征值分解方法更加稳定和高效,适用于大规模数据集的降维。

PCA实例

以下是一个简单的PCA函数,接受一个数据矩阵X和要保留的主成分数量num_components作为参数。它首先对数据进行中心化处理,然后计算协方差矩阵并求解特征值和特征向量。接下来,它将特征值按降序排序,并选择前k个特征向量作为主成分。最后,它将数据投影到选定的主成分上,并返回投影后的数据。

import numpy as np

def pca(X, num_components):
    # 中心化数据
    X = X - np.mean(X, axis=0)

    # 计算协方差矩阵
    cov_matrix = np.cov(X, rowvar=False)

    # 计算特征值和特征向量
    eigenvalues, eigenvectors = np.linalg.eig(cov_matrix)

    # 对特征值进行排序
    sorted_indices = np.argsort(eigenvalues)[::-1]
    sorted_eigenvalues = eigenvalues[sorted_indices]
    sorted_eigenvectors = eigenvectors[:, sorted_indices]

    # 选择前k个主成分
    principal_components = sorted_eigenvectors[:, :num_components]

    # 将数据投影到选定的主成分上
    projected_data = np.dot(X, principal_components)

    return projected_data

# 示例用法
# 创建一个3维数据集
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

# 使用PCA将数据从3维降至2维
result = pca(data, 2)

print(result)

结果

主成分分析是一种强大而灵活的数据降维技术,它能够帮助我们更好地理解和分析复杂的数据集。通过PCA,我们可以减少维度、去除冗余信息,并从中提取出最具代表性的特征。无论是在学术研究还是实际应用中,PCA都发挥着重要作用。通过学习和掌握PCA的原理和实现方法,我们可以更好地处理和利用数据,为进一步的分析和决策提供有力支持。

  • 18
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值