PCA(主成分分析) 总结

最新推荐文章于 2024-05-01 07:02:04 发布

非洲人233

最新推荐文章于 2024-05-01 07:02:04 发布

阅读量475

点赞数

分类专栏：机器学习文章标签： PCA

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

感谢来自四面八方网友，此文章只是总结广大网友的知识点。

 主要思想
 在PCA方法主要将数据从原来的的空间坐标系转换到另一个坐标系，新的坐标系是由原来的坐标系的数据本身决定。
 第一个新的坐标是选择原始数据中方差最大的方向，第二个新坐标轴的选择和第一个坐标轴正交且具有最大方差的方向。
 该过程一直重复，重复的次数为原始数据的特征的数目。我们会新发现，大部分方差都包含最前面的几个新的坐标中。
 所以忽略余下的坐标轴，即对数据进行了降维的处理。

  介绍
  优点:降低数据的复杂性，识别的最重要的多个特征；
  缺点:不一定需要的，且可能损失有用的信息；
  适用数据:数值型数据

1.去除平均值

2.计算协方差矩阵

3.计算协方差矩阵的特征值和特征向量

4.将特征值从大到小排序

5.保留最上面的N个特征向量

6.将数据转到上述N个特征向量构建的空间中

真实的训练数据总是存在各种各样的问题：

1、 比如拿到一个汽车的样本，里面既有以“千米/每小时”度量的最大速度特征，也有“英里/小时”的最大速度特征，显然这两个特征有一个多余。

2、 拿到一个数学系的本科生期末考试成绩单，里面有三列，一列是对数学的兴趣程度，一列是复习时间，还有一列是考试成绩。我们知道要学好数学，需要有浓厚的兴趣，所以第二项与第一项强相关，第三项和第二项也是强相关。那是不是可以合并第一项和第二项呢？

3、 拿到一个样本，特征非常多，而样例特别少，这样用回归去直接拟合非常困难，容易过度拟合。比如北京的房价：假设房子的特征是（大小、位置、朝向、是否学区房、建造年代、是否二手、层数、所在层数），搞了这么多特征，结果只有不到十个房子的样例。要拟合房子特征->房价的这么多特征，就会造成过度拟合。

4、 这个与第二个有点类似，假设在IR中我们建立的文档-词项矩阵中，有两个词项为“learn”和“study”，在传统的向量空间模型中，认为两者独立。然而从语义的角度来讲，两者是相似的，而且两者出现频率也类似，是不是可以合成为一个特征呢？

5、 在信号传输过程中，由于信道不是理想的，信道另一端收到的信号会有噪音扰动，那么怎么滤去这些噪音呢？

而这里的特征很多是和类标签有关的，但里面存在噪声或者冗余。在这种情况下，需要一种特征降维的方法来减少特征数，减少噪音和冗余，减少过度拟合的可能性。

下面探讨一种称作主成分分析（PCA）的方法来解决部分上述问题。PCA的思想是将n维特征映射到d维上(d<n)，这d维是全新的正交特征。这d维特征称为主元，是重新构造出来的d维特征，而不是简单地从n维特征中去除其余n-d维特征。