机器学习笔记 —— PCA

对于PCA老是懂了又忘,所以写一篇笔记总结一下好啦!

1. PCA简介

在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。
【摘自维基】

可以看到,PCA的主要应用于想从保留数据集信息的角度进行特征降维。

2. 具体介绍

2.1 协方差矩阵

意义:衡量两组数据之间的关系
协方差公式: cov(X,Y)=E((xE(x))(yE(y)))
协方差矩阵即对于每个特征,两两组合依次计算得到协方差

(即对于n个特征的数据集,能够得到n*n的对应的协方差矩阵。其中对角线上由于计算的是特征本身,矩阵对角线上的值全为0)
n*n矩阵中元素 xij 代表第i个特征与第j个特征的协方差

2.2 PCA
  1. 目的: 特征降维,在保留信息的同时,减少冗余特征
  2. 做法:
    (1). 计算协方差矩阵 (得到每两个特征的相关度)
    (2). 化简矩阵
      将矩阵化简的意义在于,由于协方差矩阵代表的是两个特征的相关度,若我们能通过对矩阵进行线性变换,使矩阵除了对角线外的值,都能接近0(即无关),就达到了保留信息同时去除冗余矩阵的目的。
      换一种说法,就是我们想通过这种方式,找到一种合适的将原数据集中的特征线性组合的方式(变换矩阵W), 使原本的高维数据能通过这种线性组合方式映射到低维空间中。

  3. 如何化简?
    3.1 可对角化矩阵
    我们目前是想将数据集R得到的协方差矩阵C, 通过变换得到对角矩阵。即:

    C=UDU1

    其中,D为对角矩阵,U为转换矩阵。此过程又称为特征值分解
    (对称矩阵属于不同特征值的特征向量正交,故有 UUT=I , U1=UT
    【从投影空间的角度看,即我们需要在同一个线性空间内,寻找一组新的基,使数据投影在这组新基底上。而对于数据在这组基底上的某个基的投影很小,这个基就是可以删掉的。(因为投影长度小代表可区分度不高)】
    D矩阵对角线上的每个特征值a对应的特征向量,即为U矩阵中的每一列 λ ,并有: Cλ=aλ

  4. 变换
    首先,我们假设变换矩阵为Q,则对于原数据集矩阵X有, Y=QX
    因此,对于新的矩阵Y,即有:
    CY=YYT=QXXTQT=QCXQT
    对比3中,我们可以得到 Q=UT

  5. 降维
    正如我在3中所说,对角矩阵D中的值即为特征值a,代表矩阵A对特征向量 λ 的伸缩倍数(因为向量方向不变)。因此,伸缩倍数越大,代表数据集映射到该特征向量对应基的投影越大,数据集差异越大。因此我们可以通过筛选特征值高的,将特征值低的特征向量删除掉。这样就实现了降维。

另外,关于PCA还需要了解的就是SVD(奇异值分解)和LDA(线性判别分析)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值