主成分分析-PCA

最新推荐文章于 2022-06-11 20:03:42 发布

kasdlj

最新推荐文章于 2022-06-11 20:03:42 发布

阅读量1k

点赞数

分类专栏：机器学习文章标签： PCA 主成分分析

本文链接：https://blog.csdn.net/lvhao92/article/details/50858544

版权

关于PCA，一提到PCA就要反应到降维，一提到降维就要反应到PCA。

举个例子。每个人都有很多不同的性质，高矮胖瘦，谈吐气质等等，但是我们一开始区分他们并没有用到特别多的特征，大致记个长啥样身高如何的，下次看见就能再认识了。这。就是降维。PCA就是干这事的。

下面再介绍一个更形象的例子，2维图中存在着这样一群点。我们希望能将这些点压缩至一维。一旦压缩到一维了信息量肯定有损失，这是必然的，但是我们希望它损失的并没有那么大，尽量还保存着多一点的点的位置关系信息。于是，直观上来看，就是我们拿一根筷子（怎么又是筷子？！）在这么多点之间进行比划，主要是旋转筷子的方向。然后看这些点是否映射在筷子上面的时候分散的比较开，也或者看是否这些点映射到筷子上面的时候，所要移动的距离最短。后面不少内容就是围绕着这两点进行的。根据这两条准则，我们可以判断出这幅图中u1的方向的筷子更适合来表示这群点。

接下来，主要谈论这两条准则：

1.最近重构性

何为最近重构性，就是样本点到这个超平面（直线的高维推广）的距离都足够近。也就是上文中这些点是否映射到筷子上面的时候所要移动的距离最短。

也就是使得图中的加起来最小。这是二维的解释，那高维中如何解释呢，就是原来的样本点到基于投影重构之后的之间的距离最小。

说一个前提，就是所有的样本xi都是去均值化的（毕竟我们要反映信息，一定是变化才有信息，样本间的位置差别方可反映该样本的信息，也是为了后面的简化运算，这里就去均值了，，当我们处理“自然图像“分类时候，我们对图像的整体亮度并不感兴趣，所以去均值，我们有时也需要使得不同特征的方差相似，不过”自然图像“做方差归一化的意义也不大，因为它任意统计性质都应该和其他部分相同，图像这种性质叫做平稳性）

那么又是怎么生成的呢，就是生成投影坐标+投影+重构。

第一步是生成投影坐标，假设投影之后的新坐标系是（原来xi的维度也是d维），其中是标准正交基向量，（就相当于是二维xy坐标系中的xy，一维的那个x轴一样）。这时候生成新的坐标系这就相当于把原来的坐标系进行了一个旋转，原来的点并没有发生什么变化，要知道我们做的就是降维。所以，我们要丢弃新坐标系中不太重要的部分坐标，用剩下来的d’维坐标去最大化近似表示原来d维坐标所表示的东西，这才是降维啊~好的，将维度降低到维，去除d-d‘维的坐标。