再读PCA

初识PCA

第一次在代码里面使用PCA算法还是在读大学时候,当时申请了一个人脸识别算法的实践项目,其实就是将别人论文中的算法进行实现,并且除算法外提供一个友好的界面显示算法结果,其中主要的算法就是对预处理的人脸图像数据提取主成分(主要的特征向量),然后比较两幅图像这些特征向量的距离,距离小于某个阈值就认为是同一张图像。

就这么简单个算法,在当时的人脸图像库上也有80%+的正确率,难怪之前吴恩达机器学习课程里说到PCA已经被工业界过度使用了,凡是降维就丢到PCA里跑一遍,最近在读CV相关的书里面也提到了PCA,并且对PCA算法的适用条件给出了一些指导,本文这里做一些摘记以供随时翻阅。

PCA流程

Created with Raphaël 2.2.0 原始n维数据 数据预处理 求协方差矩阵 求特征值和特征向量并按照特征值大小排序 使用前m个主成分进行降维 结束

PCA流程里面的数据预处理通常是减去均值再除以标准差的操作,如下:
X i n e w = X i − u X i δ X i X_i ^{new}= \dfrac{X_i - u_{X_i}}{\delta_{X_i}} Xinew=δXiXiuXi
这个预处理通常是为了避免各个不同维度间变量量级差距太大带来的影响。有时候除了对于输入数据做预处,对于PCA降维后的数据根据后续需求的不同,也需要做类似的操作,例如在实际应用中的PCA白化就是对PCA的输出再进行一些变换。

PCA特点

  • 降维: 一个输入经过某个变换后,得到的是低维的输出,并且这个输出能够通过逆变换近似重建输入,这种变换就认为是执行了降维
  • PCA是一种线性降维算法,是基于数据本身分布进行降维的手段,属于无监督类型,如果已经知道了数据的类别,一个思路是让原始数据经过投影,在低维空间上不同类别的分布中心尽可能远离,相同类别的分布方差尽可能小,这种方式就是线性判别分析(LDA)
  • PCA是经典的线性降维算法,为了引入非线性,可以在求协方差之前先做一次非线性变换,即Kernel PCA
  • 适用于PCA的数据是统计意义上有强相关性的数据
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值