PCA(principal component analysis主成分分析)概括(原因、步骤、主成分得分、特征值表重要性的原因、图像的特征分解)

PCA降维的原因

  1. 主成分的个数(数据量)远小于原数据量  

  2. 主成分可以反映原有变量的绝大部分信息

  3. 主成分之间互不相关(正交),并且可以得到有效解释 (在主成分有意义的情况下)

    总之主成分分析就是原本多维度的数据转成只包含少数几个维度、各维度所含数据量高度稠密且互不相关的精简数据,同时降维删除掉的部分维度大多是缺乏贡献的噪音数据,对减少预测干扰有一定的好处。

 

PCA降维的步骤

    1.原始数据标准化(减去平均值,在除以其方差)

            第一步需要对其中心化。中心化后,如果数据的尺度不统一,还需要标准化。通常的标准化方式是除以标准差。这里可能就出出现一个问题,比如标准差很小,接近于零,尤其是被噪声污染的数据,噪声的标准差对数据的放大作用更显著,而没被噪声污染的数据其在标准化的过程中放大作用较小。所以在对数据完全无知的情况下,PCA变换并不能得到较好的保留数据信息。

    2.计算协方差矩阵

             样本各个维度之间的相关系数矩阵

    3.计算协方差矩阵的特征值和特征向量

             将关系矩阵的‘关系’进行缩减,用于之后保留重要度比较高的前N项,用于最后的还原。

    4.排序特征值

    5.保留前N个特征值所对应的特征向量,组成矩阵a(维度为N*P维)

    6.数据转换到上述N个特征向量构建的新空间中

                (Y为N*1维)

 

主成分得分:

即对每一个样本数据标准化后带入第五步的主成分公式(就是样本和主成分向量相乘)中,计算第一主成分得分,第二主成分得分

 

特征值为什么可以表示特征向量的重要性呢?

     从定义出发,Ax=cx:A为矩阵,c为特征值,x为特征向量。 

    矩阵A乘以x表示,对向量x进行一次转换(旋转或拉伸)(是一种线性转换),而该转换的效果为常数c乘以向量x(即只进行拉伸)。 

我们通常求特征值和特征向量即为求出该矩阵能使哪些向量(当然是特征向量)只发生拉伸,使其发生拉伸的程度如何(特征值大小)。这样做的意义在于,看清一个矩阵在那些方面能产生最大的效果(power),并根据所产生的每个特征向量(一般研究特征值最大的那几个)进行分类讨论与研究。

 

 

补充有意思的东西:

图像上面的特征值分解:

 

    我们都知道图像其实就是一个像素值组成的矩阵,假设有一个100x100的图像,对这个图像矩阵做特征值分解,其实是在提取这个图像中的特征,这些提取出来的特征是一个个的向量,即对应着特征向量。而这些特征在图像中到底有多重要,这个重要性则通过特征值的绝对值来表示。

    我们知道,图像矩阵A特征值分解后可以得到矩阵Q和矩阵E:

            A = QEQ-1

    反推,我们可以通过后面的式子求解出原来的矩阵,又排序之后的特征值后面的大小普遍较低(即特征重要性很低),所以我们不用他们进行还原(将这一部分的特征值设为0)。

 

    

 

 

 

  • 2
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值