白板机器学习笔记 P22-P27 PCA降维

最新推荐文章于 2023-11-17 08:00:00 发布

李攀007

最新推荐文章于 2023-11-17 08:00:00 发布

阅读量349

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_40367091/article/details/113913703

版权

机器学习专栏收录该内容

18 篇文章 2 订阅

订阅专栏

视频地址：https://www.bilibili.com/video/BV1aE411o7qd?p=22
笔记地址：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/kg2npf

P22 降维1 - 背景
在这里插入图片描述
本节内容：用立方体内接球体积占比和套球体环形带体积占比两个例子，从几何角度阐述了维度灾难。

维度灾难的几何理解：
https://zhuanlan.zhihu.com/p/27488363

解决过拟合问题的方法：①增加数据 ②正则化 ③降维。

降维的分类方法：
①直接降维：特征选择 / Lasso导致的参数稀疏
②线性降维：PCA / MDS
③非线性降维：流型

P23 降维2 - 样本均值&样本方差矩阵
在这里插入图片描述
本节内容：将协方差矩阵推导成中心矩阵H的形式。

中心矩阵H的形式：
在这里插入图片描述

中心矩阵H的性质：
①H是实对称矩阵，也自然是半正定矩阵。H^T=H
②H是幂等矩阵。H=H*H^T=H²=Hⁿ
③H是奇异矩阵，不满秩，有n-1个特征值为1，有一个特征值为0
④协方差矩阵 S=(X^TH)(X^TH)^T，其中X^TH相当于对X^T进行了中心化处理，这也是H叫做中心矩阵的原因。
在这里插入图片描述

参考维基百科-中心矩阵：https://en.wikipedia.org/wiki/Centering_matrix

中心化的意义：
①几何意义是样本集中所有样本整体平移，因为减的是每个属性的均值，每个样本减的都一样。
②数学上主要是让所有样本的同一属性值相加都为0，也就保证了环绕在原点周围，有正有负、有左有右才会抵消。
③保证过原点的拟合直线能够真正反映所有样本变化规律。PCA是重构坐标系，最后拟合的方向表示的是新的坐标轴，是从原点发出的，所以要做中心化处理保证拟合的方向能真正反映数据变化的规律，如下图所示。
在这里插入图片描述

中心化和标准化
https://blog.csdn.net/lqz790192593/article/details/83047475

P24 降维3 - PCA 最大投影方差
在这里插入图片描述
PCA核心思想：就是对原始特征空间进行重构，把原始的基变成一组标准正交基，也即对样本的各属性进行解耦。然后把投影方差大的坐标轴取出来，把投影方差较小的坐标轴丢掉。因为方差较小说明这条坐标轴对于区分所有样本并没有太大帮助，也即不能带来什么信息量，所以我们就可以丢掉。甚至某条坐标轴上投影方差很小，也可能是由噪声带来的，扔掉之后对模型决策边界平滑有好处。

从推导角度理解特征值表示样本方差：
①假设我们找到了一个坐标轴方向u₁，可以把所有样本尽可能分开，也即将所有样本投影到这条坐标轴上方差最大。因为是要投影到坐标轴上，根据上一节中心化的意义第三点，我们要先把数据进行中心化，表示为x_i-μ。进一步的，中心化之后的数据投影为(x_i-μ)*u₁。因为x_i-μ是中心化之后的，所以对X-μ而言，所有样本的每一维属性的均值为0，进一步可证(x_i-μ)*u₁的均值也为0。所以投影(X-μ)*u₁的方差可以直接表示为∑[(x_i-μ)*u₁]²。
②将投影方差作为Loss函数，整理为协方差矩阵的形式。(这里注意：当把平方展成矩阵相乘的形式时，转置都是在前，如w²=w^Tw)
在这里插入图片描述
③根据拉格朗日乘子法优化出目标向量u₁的形式，即：X的协方差矩阵S的特征向量。

④一些结论：一组特征向量就是一组新的正交基，特征向量对应的特征值表示所有X样本在该特征向量上投影的方差。因为方差不可能小于0，这也对应着实对称矩阵半正定的性质。当方差为0，说明所有样本在该坐标轴上的投影重合在一起，也即没有区分度，说明该坐标轴不提供额外信息量，秩也减一。

P25 降维4 - PCA 最小重构代价
在这里插入图片描述
最小重构代价思想：PCA的核心思想就是对数据空间进行重构，将数据空间表达为一组标准正交基。但是一个空间可以找出无数组正交基来表示，要找到符合我们要求的标准正交基，就要根据我们的目标来进行优化。上边的最大投影方差是将Loss定位为：使得所有样本在目标坐标轴上的投影方差最大；而本节的最小重构代价则将Loss定位为：使得重构出的所有重构样本向量x_i^#与原始样本向量x_i的平方差之和最小。这样定义的原因是：PCA是一种降维方法，也就是先找到P组标准正交基，然后只能保留Q维，其他P减Q维坐标轴的信息就丢弃了。原来的数据x_i用留下的这Q维坐标轴表示就变成了x_i^#（丢弃部分信息），这样重构向量和原始向量的平方差之和就可以用来表示信息丢弃的量，这就是最小化的Loss目标。

用向量表示样本坐标：x_i^T*u_k可以表示样本x_i^T在坐标轴u_k上的投影长度，是一个数。(x_i^T*u_k)u_k用坐标轴的单位向量乘以模，就可以表示样本在这条坐标轴上的新坐标。把每条坐标轴的坐标加起来就是样本最终的向量表示。x_i为原始样本向量，要考虑P条坐标轴的坐标之和；x_i^#是重构样本向量，丢弃了部分坐标轴，只用考虑Q条坐标轴即可。
在这里插入图片描述
重构代价Loss：所有样本重构代价的平方差之和最小。

这个推导中最难的部分，就是红线标注部分。我们将原始向量x_i减去重构向量x_i^#得到的新向量，命名为丢弃向量，表示丢掉的坐标轴信息。红色部分表示的就是计算丢弃向量的模长||∑(x_i^T*u_k)u_k||²，直接可以推导得到∑(x_i^T*u_k)²。这个计算可以成立的原因是：u_q+1到u_p就是一组标准正交基，和欧氏空间的坐标系一样。然后我们求那个向量的模长就类似于求一个立方体的对角线长度，自然等于各个边长的平方和，边长就是原始向量x_i在各个坐标轴u_k上的投影长度x_i^T*u_k。

最大投影方差和最小重构代价的Loss对比：最大方差是找特征值大的，保留这些坐标轴；最小代价是找特征值小的，丢弃这些坐标轴，本质上是一样的。
在这里插入图片描述
P26 降维5 - SVD角度看PCA和PCoA（主坐标分析）

第①部分：就是PCA通俗求法，直接对样本方差矩阵S进行特征值分解，取最大的前q个特征值对应的特征向量作为方向即可。

第②部分：从奇异值分解的角度来看待PCA。由之前的推导可知： S=(HX)^T(HX)。因为HX不是方阵，我们可以进行奇异值分解 HX=U∑V^T，然后将 S 表示成两个奇异值分解相乘的形式。奇异值有如下三个性质：(1)左奇异矩阵U是列正交的，所以U^TU=I (2)右奇异矩阵V是完全正交的，所以V^TV=VV^T=I (3)∑是对角阵，多个∑相乘可以直接写成次幂的形式。因此： S=(HX)^T(HX)=(U∑V^T)^T(U∑V^T)=V∑U^TU∑V^T=V∑²V^T。

第③部分：定义T=(HX)(HX)^T=U∑²U^T，对T的特征分解被称为主坐标分析（PCoA）。

PCA与PCoA的区别：如上边推导所示，PCA特征分解之后的特征矩阵直接就是HX的右奇异矩阵V。所以V中的列向量就是主成分，也即重构之后各坐标轴的方向，然后用向量HX在各轴上投影获得一个模长，HX·V=U∑V^T·V=U∑，把所有模长合并从而得到坐标向量；而PCoA特征分解之后的特征矩阵就是HX的左奇异矩阵U，用U乘以特征值对角阵∑直接就得到坐标向量，所以叫主坐标分析。~~上述结论也可以从矩阵旋转拉伸的角度理解，HX=U∑V^T，其中V^T表示将目标向量放在V列向量构成的特征空间中，∑表示拉伸，U再转置会原空间~~

P27 降维6 - 概率角度P-PCA
（用到再回来学吧）

李攀007

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
白板机器学习笔记 P22-P27 PCA降维

视频地址：https://www.bilibili.com/video/BV1aE411o7qd?p=22笔记地址：https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/kg2npfP22 降维1 - 背景本节内容：用立方体内接球体积占比和套球体环形带体积占比两个例子，从几何角度阐述了维度灾难。维度灾难的几何理解：https://zhuanlan.zhihu.com/p/27488363解决.
复制链接

扫一扫

专栏目录