主成分分析(主元分析PCA)

主成分分析的思想和意义

(一)主成分分析的简介

        现代社会的大数据主要呈现出数据多,纬度高,信息杂特点,极大受到计算性能的影响。同时数据内涵盖的噪声也会对后续的处理产生一定的影响。

        如果能够简化原始数据,将对后续的处理和计算变得更加容易。同时再简化原始数据的时候,应该尽可能的保留原始数据的信息以保留计算精度。通过简化原始数据,保留原始数据的信息,可以在保留计算精度的基础上增加计算效率,这也称之为降维

        本节我们将要介绍的逐层分汾西或者叫主元分析pca,通过正交变换将一组可能相关的变量转换成一组线性不相关的变量,这些不相关的变量称为主成分。

        PCA的目标是将数据化归到红球运动的x轴,即找到一种方法来解释红球在x轴方向上的运动,而忽略其他方向的运动。

(二)主成分分析都几何解释

上面一个实现了降维,下面那个降维会损失50%信息,不可取

(三)主成分分析的数学模型

        在PCA中,每个主成分都是原始变量的线性组合。这意味着每个主成分可以表示为原始变量的加权和,其中权重(或系数)决定了每个变量在该主成分中的重要性。

        t_p = u_{1p}X_1 + u_{2p}X_2 + ... + u_{pp}X_p这是第p个主成分的表达式,其中tp​是第p个主成分。

        X1​,X2​,...,Xp​是原始变量,u1​,u2​,...,up​是这些变量的权重

        主成分分析的一个过程可以总结成右边的图:

  1. 原始变量:开始时,我们有一个数据集,其中包含多个原始变量(特征)

  2. PCA算法:应用PCA算法来分析数据集。PCA是一种降维技术,它通过找到数据集中的模式来减少数据的维度。

  3. 线性组合:PCA算法将原始变量转换为新的变量,这些新变量是原始变量的线性组合。这些线性组合被称为主成分。

        需要注意的使是:经过线性变换后得到的主成分,它的数量与原始数据变量的维度是相同的。即左边的公式t和x都是同批次维度的

  1. 每个主成分的系数平方和为1: 这个条件确保了每个主成分都是标准化的,即每个主成分的向量长度(或模)为1。这样做的好处是,不同的主成分之间具有可比性,它们的贡献可以基于方差来衡量,而不是由于向量长度不同而产生的差异。这也使得主成分分析结果不受原始数据尺度的影响。
  2. 主成分之间线性无关:这个条件意味着不同的主成分之间是正交的,也就是说它们之间没有线性关系。这保证了每个主成分捕捉的是数据中独特的信息,没有信息的重叠。如果主成分之间存在相关性,那么它们就会重叠,导致一些信息被重复计算,这会降低PCA降维的效果。

  3. 主成分的方差依次递减这个条件表明主成分按照它们解释的方差量排序,第一个主成分具有最大的方差,因此捕捉了数据中最主要的变化模式。随着主成分序号的增加,它们解释的方差逐渐减少,这反映了它们的重要性逐渐降低。选择保留方差较大的前几个主成分可以确保我们保留了数据中最重要的信息,同时去除噪声和不重要的变化。         (我们将数据的方差是看作其包含的信息量,我们希望能够得到方差更大的主成分,因为它能够涵盖原始数据的更多波动与隐含信息)

  • 在统计学中,方差是衡量数据点分布离散程度的指标。方差越大,表明数据点的分布越分散,包含了更多的信息。因此,在降维过程中,我们希望保留的主成分向量具有较大的方差,以便捕捉更多的原始数据信息。
  • 当主成分的数量大于1时,为了避免信息的重叠和相关性,我们需要确保各个主成分向量之间是正交的。这样,每个主成分都代表了数据中的独立信息,提高了PCA的解释能力和效果。

  1. 原数据矩阵 X:这是一个 n×p 的矩阵,其中 n 是样本的数量,p 是变量(或特征)的数量。每一行代表一个样本,每一列代表一个变量。

  2. 主成分分析(PCA):PCA是一种线性变换方法,旨在将原始数据转换为一组新的变量,这些变量称为主成分。这些主成分是原始变量的线性组合,并且按照它们解释的方差大小排序。

  3. 载荷矩阵 U:这是一个 p×m 的矩阵,其中 m 是要保留的主成分的数量。矩阵的每一列代表一个主成分的权重向量,这些权重决定了原始变量如何组合成主成分。

  4. 主元矩阵 T:这是一个 n×m 的矩阵,其中包含了转换后的主成分。每一行代表一个样本在新的空间中的坐标。

数学模型

PCA的目标是找到一个变换,使得转换后的主成分包含尽可能多的信息(方差最大),同时满足以下约束条件:

  • 每个主成分的系数平方和为1(标准化):u_i^T u_i = 1,其中 u_i​ 是第 i 个主成分的权重向量。
  • 主成分之间线性无关(正交):\text{}\quad t_i^T t_j = 0, \quad i \neq j其中 ti​ 和 tj​ 分别是第 i 和第 j 个主成分。

目标函数

PCA的目标函数是最大化每个主成分的方差,数学上可以表示为: \text{}\quad \max \sum_{i=1}^{n} (t_{i1} - \bar{t}_1)^2 其中,ti1​ 是第 i 个样本在第一个主成分上的投影,\bar{t}_1是所有样本在第一个主成分上的投影的平均值。

举例说明

载荷矩阵的来源

载荷矩阵 U 是通过以下步骤得到的:

  1. 协方差矩阵计算:首先,计算原始数据集的协方差矩阵或相关系数矩阵。这个矩阵反映了原始变量之间的线性关系。

  2. 特征值分解:接下来,对协方差矩阵或相关系数矩阵进行特征值分解。这将产生一组特征值和相应的特征向量。

  3. 选择特征向量:特征向量构成了载荷矩阵的列。通常,我们选择那些对应于最大特征值的特征向量,因为这些特征向量代表了数据中方差最大的方向。

  4. 构造载荷矩阵:载荷矩阵 U 由选择的特征向量组成,每一列代表一个主成分的权重向量。

维度关系

  • 原始数据矩阵 X:维度为 n×p,其中 n 是样本数量,p 是变量数量。每一行代表一个样本,每一列代表一个变量。

  • 载荷矩阵 U:维度为 p×m,其中 m 是选择保留的主成分的数量。由于每个主成分是原始变量的线性组合,因此载荷矩阵的每一列包含了原始 p 个变量在该主成分上的权重。

  • 主元矩阵 T:通过原始数据矩阵 X 和载荷矩阵 U 的乘积 T=XU 得到,维度为 n×m。每一行代表一个样本在新主成分空间中的坐标。

举例说明

        假设原始数据集 X 有3个样本(n=3)和4个变量(p=4),则 X 的维度是 3×4。

        如果我们决定保留2个主成分(m=2),则载荷矩阵 U 的维度将是 4×2。这意味着每个主成分都是原始4个变量的线性组合,且每个主成分有2个权重与之对应。

        通过乘积 T=XU,我们得到一个新的数据矩阵 T,其维度是 3×2。这个矩阵包含了原始3个样本在2个主成分上的投影。

(四)主元分析的小结

 


 主成分分析算法的过程

(一)

因为葡萄酒中各化学成分之间可能存在一定的关联,满足主元分析的基础

我们要做的就是将这13个测量变量进行线性组合,以得到包含信息最多的组元。 

(二)算法求解与推导

(三) 主元个数的选取

 

应用实例

主成分分析的应用

人脸识别的步骤

PCA(主成分分析)在人脸识别中的应用:

人脸识别的步骤

  1. 创建人脸数据库(Step1)

    • 图(a)和图(b):原始人脸图像和经过灰度转换后的人脸图像的示例。
    • 图像处理:首先,系统需要读取人脸数据库中的图像。这些图像首先被转换为灰度图像,以减少处理的数据量并突出显示重要的视觉特征。
    • 向量化:接着,将二维灰度图像转换为一维向量。例如,一个128x128像素的图像可以被展开为一个16384维的向量。这样的高维向量可以包含大量的信息,但也可能导致维度灾难。
  2. 计算特征脸,形成特征库(Step2)

    • PCA应用:为了解决高维向量带来的问题,PCA被用来进行特征提取。PCA是一种降维技术,它通过识别数据中的模式,将原始的高维向量转换为一组新的、相互正交的向量,这些向量称为主成分。
    • 特征脸:PCA提取的特征向量构成了特征脸,它们是一组基础图像,可以表示原始图像集中的主要变化方向。通过这种方式,可以显著降低数据的维度,同时保留最重要的信息。
  3. 人脸识别(Step3)

    • 特征向量:对于测试图像,重复上述步骤,将其转换为特征向量。
    • 比对和分类:然后,将这个特征向量与特征库中的特征向量进行比对。常用的比对方法是欧氏距离,它测量两个向量之间的直线距离。根据这个距离,系统可以判断测试图像与数据库中哪个人脸最为相似,从而实现识别。

人脸识别中除了PCA外,还有多种降维技术可以用于提取特征并提高识别的准确性和效率。以下是一些常用的降维技术:

  1. 线性判别分析(LDA, Linear Discriminant Analysis)

    • LDA是一种监督学习的降维技术,它不仅用于降维,还试图找到一个线性组合的特征空间,在这个空间中,不同类别的数据点尽可能分开。
  2. 奇异值分解(SVD, Singular Value Decomposition)

    • SVD是一种矩阵分解技术,它可以将原始数据矩阵分解为三个特定的矩阵乘积,这些矩阵包含了数据的主要特征。
  3. 独立成分分析(ICA, Independent Component Analysis)

    • ICA是一种计算方法,用于将多变量信号或数据集分解为统计独立的非高斯信号源。
  4. 自编码器(Autoencoders)

    • 自编码器是一种使用神经网络的无监督学习技术,它通过训练网络学习输入数据的压缩表示,然后尝试重构输入数据。
  5. t-分布随机邻域嵌入(t-SNE, t-Distributed Stochastic Neighbor Embedding)

    • t-SNE是一种用于高维数据可视化的技术,它可以将高维数据映射到二维或三维空间,同时尽可能保持数据点之间的相对距离。
  6. 多维缩放(MDS, Multidimensional Scaling)

    • MDS是一种用于可视化和探索数据的技术,它试图在低维空间中保持原始数据点之间的距离。
  7. 局部线性嵌入(LLE, Locally Linear Embedding)

    • LLE是一种非线性降维技术,它通过保持数据点之间的局部邻域关系来寻找低维表示。
  8. 等距映射(Isomap, Isometric Mapping)

    • Isomap是一种非线性降维技术,它通过保持数据点之间的测地线距离来寻找低维表示。
  9. 随机投影(Random Projection)

    • 随机投影是一种简单且计算效率高的降维技术,它通过随机选择投影方向来减少数据的维度。
  10. 深度信念网络(DBN, Deep Belief Networks)

    • DBN是一种由多层受限玻尔兹曼机(RBM)堆叠而成的深度学习模型,它可以用于特征学习和降维。
  11. 卷积神经网络(CNN, Convolutional Neural Networks)

    • 虽然CNN主要用于特征提取而不是降维,但它们在人脸识别中非常有效,因为它们可以自动学习图像中的层次结构特征。

这些降维技术各有优势和适用场景,选择哪种技术取决于具体的应用需求、数据特性和计算资源。在实际应用中,这些技术可以单独使用,也可以组合使用,以达到最佳的人脸识别效果。

 

主成分分析在过程检测过程中的应用

主成分分析在评价分析中的应用

在法律领域,对法官的评估是一个复杂的过程,涉及多个维度。数据集USJudgeRatings提供了一个独特的视角,它包含了律师对美国高等法院法官的评分。该数据集由43个样本和12个评估变量组成,每个变量都从不同的角度反映了法官的专业能力和特质。

这些变量包括:

  • 接触次数(CONT):律师与法官的接触次数。
  • 审理前准备(PREP):法官在审理前的准备工作。
  • 正直程度(INTG):法官的正直性。
  • 法律熟悉度(FAMI):法官对法律的熟悉程度。
  • 风度(DMNR):法官的风度。
  • 口头裁决可靠度(ORAL):法官口头裁决的可靠性。
  • 勤勉度(DILG):法官的勤勉程度。
  • 书面裁决可靠度(WRIT):法官书面裁决的可靠性。
  • 案例流程管理(CFMG):法官管理案例流程的能力。
  • 体能(PHYS):法官的体能状况。
  • 决策效率(DECI):法官的决策效率。
  • 是否值得保留(RTEN):法官是否值得保留职位。

为了简化评估过程并捕捉这些变量的主要信息,我们采用了主成分分析(PCA)。PCA是一种降维技术,它通过识别数据中的模式,将原始变量转换为一组新的无关变量,称为主成分。

在本案例中,通过PCA模型,我们发现:

  • PC1(第一主成分):解释了84.4%的变量信息,代表了法官评分中的主要因素。
  • PC2(第二主成分):解释了9.2%的变量信息,补充了第一主成分未涵盖的信息。

综合PC1和PC2,我们可以解释原始12个变量的93.6%的信息。这意味着,通过两个主成分,我们能够在保留大部分关键信息的同时,显著减少评估法官时需要考虑的变量数量。

主成分分析的优势和广泛应用

  • 27
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值