机器学习相关--PCA主成分分析

特征降维的方法
  • 为什么要降维?
    • 通常处理的数据是多维的,算法的时间复杂度跟维数成指数级增加。
维数达上千万维,称为维数灾难,往往就需要进行降维处理。
  • 降维的作用?
    • 数据降维:
1.使数据集更容易使用;
2.降低算法的计算开销;
3.去除噪声;
4.减轻过拟合;
5.易于获取有价值的信息.
数据降维方法众多,需根据特定问题选用合适的数据降维方法

  • 降维处理的相关问题?
    • 考虑会丢失信息吗?
    • 考虑属性之间的相关性?
    • 降维的同时减少信息的损失
  • 降维的方法
    • 特征选择:从原始的特征中挑选最具有代表性的一些特征
    • 特征提取:用变换(映射)的方法,吧原始特征变换为较少的新特征。由原始数据创建新的特征集成为特征提取。
  • PCA主成分分析
    • 把数据从原来的坐标系变化到新的坐标系,新的坐标系的选择由数据本身决定
    • PCA的应用领域:
      • 股票交易市场数据的探索性分析、生物信息学领域的基因组和基因表达水平数据分析等。PCA 可以帮助我们识别出基于特征之间的关系识别出数据内在的模式。
    • 从数学层面理解PCA:
      • PCA 的目标就是在高维数据中找到最大方差的方向,并将数据映射到一个维度不大于原始数据的新的子空间上。寻找最大的方差方向就是信息的保留量(信息论)
  • PCA 优缺点:
优点:降低数据的复杂性, 识别最重要的多个特征
缺点:不一定需要, 且可能损失有用信息
  • PCA算法流程

输入:m个n维数据集;
输出:m个n维数据集(r<n);
(1)将m行n列数据集按列(特征)进行去均值化后为 X;
(2)求协方差矩阵
(3)求协方差矩阵 C 的特征值和特征向量;
(4)将特征向量按照特征值从大到小的顺序,从左到右排成矩阵,并取前r个组成 P
(5) Y=XP 即为降维到r维后的数据



  • PCA实例
有 5 个二维的样本,降到一维,数据矩阵如下




  • PCA处理后的手写体识别


这里面我们将原始的 8*8=64 维度的数据压缩到只有两个维度的特征空间,
依然可以发现绝大多数数字之间可以区分清楚。
  • PCA总结以及与LDA的区别和联系
    • 总结
      • 降维/压缩问题则是选择数据具有代表性的特征,在保持数据多样性的基础
上,规避掉大量的特征冗余和噪声,不过这个过程也很有可能会损失一些有用的
模式信息。经过大量的实践证明,相比较损失的少部分模型性能,维度压缩能够 节省大量用于模型训练的时间,这样一来 PCA 所带来的模型综合效率变得更为划算。
  • LDA 的概念与 PCA 区别与联系
    • PCA 试图在数据集中找到方差最大的正交主成分量的轴,而 LDA 的目
标是发现可以最优化分类的特征子空间。 LDA 和 PCA 都是可以降低数据集维度的
线性转化技巧。
    • PCA 是一种无监督算法(不需要类标签的参与),而 LDA 是监督算法。
    • 在图像识别某些情况下,如每个类别中只有少量样本使用 PCA 最为预
处理工具的分类结果更佳。
END
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值