白板机器学习笔记 P22-P27 PCA降维

视频地址:https://www.bilibili.com/video/BV1aE411o7qd?p=22
笔记地址:https://www.yuque.com/books/share/f4031f65-70c1-4909-ba01-c47c31398466/kg2npf

P22 降维1 - 背景
在这里插入图片描述
本节内容:用 立方体内接球体积占比 和 套球体环形带体积占比 两个例子,从几何角度阐述了维度灾难。

维度灾难的几何理解:
https://zhuanlan.zhihu.com/p/27488363

解决过拟合问题的方法:①增加数据 ②正则化 ③降维。

降维的分类方法
①直接降维:特征选择 / Lasso导致的参数稀疏
②线性降维:PCA / MDS
③非线性降维:流型

P23 降维2 - 样本均值&样本方差矩阵
在这里插入图片描述
本节内容:将协方差矩阵推导成中心矩阵H的形式。

中心矩阵H的形式
在这里插入图片描述

中心矩阵H的性质
①H是实对称矩阵,也自然是半正定矩阵。HT=H
②H是幂等矩阵。H=H*HT=H2=Hn
③H是奇异矩阵,不满秩,有n-1个特征值为1,有一个特征值为0
④协方差矩阵 S=(XTH)(XTH)T,其中XTH相当于对XT进行了中心化处理,这也是H叫做中心矩阵的原因。
在这里插入图片描述

参考维基百科-中心矩阵:https://en.wikipedia.org/wiki/Centering_matrix

中心化的意义
①几何意义是样本集中所有样本整体平移,因为减的是每个属性的均值,每个样本减的都一样。
②数学上主要是让所有样本的同一属性值相加都为0,也就保证了环绕在原点周围,有正有负、有左有右才会抵消。
③保证过原点的拟合直线能够真正反映所有样本变化规律。PCA是重构坐标系,最后拟合的方向表示的是新的坐标轴,是从原点发出的,所以要做中心化处理保证拟合的方向能真正反映数据变化的规律,如下图所示。
在这里插入图片描述

中心化 和 标准化
https://blog.csdn.net/lqz790192593/article/details/83047475

P24 降维3 - PCA 最大投影方差
在这里插入图片描述
PCA核心思想:就是对原始特征空间进行重构,把原始的基变成一组标准正交基,也即对样本的各属性进行解耦。然后把投影方差大的坐标轴取出来,把投影方差较小的坐标轴丢掉。因为方差较小说明这条坐标轴对于区分所有样本并没有太大帮助,也即不能带来什么信息量,所以我们就可以丢掉。甚至某条坐标轴上投影方差很小,也可能是由噪声带来的,扔掉之后对模型决策边界平滑有好处。

从推导角度理解特征值表示样本方差
①假设我们找到了一个坐标轴方向u1,可以把所有样本尽可能分开,也即将所有样本投影到这条坐标轴上方差最大。因为是要投影到坐标轴上,根据上一节中心化的意义第三点,我们要先把数据进行中心化,表示为xi-μ。进一步的,中心化之后的数据投影为(xi-μ)*u1。因为xi-μ是中心化之后的,所以对X-μ而言,所有样本的每一维属性的均值为0,进一步可证(xi-μ)*u1的均值也为0。所以投影(X-μ)*u1的方差可以直接表示为∑[(xi-μ)*u1]2
②将投影方差作为Loss函数,整理为协方差矩阵的形式。(这里注意:当把平方展成矩阵相乘的形式时,转置都是在前,如w2=wTw)
在这里插入图片描述
③根据拉格朗日乘子法优化出目标向量u1的形式,即:X的协方差矩阵S的特征向量。
在这里插入图片描述
一些结论:一组特征向量就是一组新的正交基,特征向量对应的特征值表示所有X样本在该特征向量上投影的方差。因为方差不可能小于0,这也对应着实对称矩阵半正定的性质。当方差为0,说明所有样本在该坐标轴上的投影重合在一起,也即没有区分度,说明该坐标轴不提供额外信息量,秩也减一。

P25 降维4 - PCA 最小重构代价
在这里插入图片描述
最小重构代价思想:PCA的核心思想就是对数据空间进行重构,将数据空间表达为一组标准正交基。但是一个空间可以找出无数组正交基来表示,要找到符合我们要求的标准正交基,就要根据我们的目标来进行优化。上边的最大投影方差是将Loss定位为:使得所有样本在目标坐标轴上的投影方差最大;而本节的最小重构代价则将Loss定位为:使得重构出的所有重构样本向量xi#与原始样本向量xi的平方差之和最小。这样定义的原因是:PCA是一种降维方法,也就是先找到P组标准正交基,然后只能保留Q维,其他P减Q维坐标轴的信息就丢弃了。原来的数据xi用留下的这Q维坐标轴表示就变成了xi#(丢弃部分信息),这样重构向量和原始向量的平方差之和就可以用来表示信息丢弃的量,这就是最小化的Loss目标。

用向量表示样本坐标:xiT*uk可以表示样本xiT在坐标轴uk上的投影长度,是一个数。(xiT*uk)uk用坐标轴的单位向量乘以模,就可以表示样本在这条坐标轴上的新坐标。把每条坐标轴的坐标加起来就是样本最终的向量表示。xi为原始样本向量,要考虑P条坐标轴的坐标之和;xi#是重构样本向量,丢弃了部分坐标轴,只用考虑Q条坐标轴即可。
在这里插入图片描述
重构代价Loss:所有样本重构代价的平方差之和最小。
在这里插入图片描述
这个推导中最难的部分,就是红线标注部分。我们将原始向量xi减去重构向量xi#得到的新向量,命名为丢弃向量,表示丢掉的坐标轴信息。红色部分表示的就是计算丢弃向量的模长||∑(xiT*uk)uk||2,直接可以推导得到∑(xiT*uk)2。这个计算可以成立的原因是:uq+1到up就是一组标准正交基,和欧氏空间的坐标系一样。然后我们求那个向量的模长就类似于求一个立方体的对角线长度,自然等于各个边长的平方和,边长就是原始向量xi在各个坐标轴uk上的投影长度xiT*uk

最大投影方差 和 最小重构代价 的Loss对比:最大方差是找特征值大的,保留这些坐标轴;最小代价是找特征值小的,丢弃这些坐标轴,本质上是一样的。
在这里插入图片描述
P26 降维5 - SVD角度看PCA和PCoA(主坐标分析)
在这里插入图片描述
第①部分:就是PCA通俗求法,直接对样本方差矩阵S进行特征值分解,取最大的前q个特征值对应的特征向量作为方向即可。

第②部分:从奇异值分解的角度来看待PCA。由之前的推导可知: S=(HX)T(HX)。因为HX不是方阵,我们可以进行奇异值分解 HX=U∑VT,然后将 S 表示成两个奇异值分解相乘的形式。奇异值有如下三个性质:(1)左奇异矩阵U是列正交的,所以UTU=I (2)右奇异矩阵V是完全正交的,所以VTV=VVT=I (3)∑是对角阵,多个∑相乘可以直接写成次幂的形式。因此: S=(HX)T(HX)=(U∑VT)T(U∑VT)=V∑UTU∑VT=V∑2VT

第③部分:定义T=(HX)(HX)T=U∑2UT,对T的特征分解被称为主坐标分析(PCoA)。

PCA与PCoA的区别:如上边推导所示,PCA特征分解之后的特征矩阵直接就是HX的右奇异矩阵V。所以V中的列向量就是主成分,也即重构之后各坐标轴的方向,然后用向量HX在各轴上投影获得一个模长,HX·V=U∑VT·V=U∑,把所有模长合并从而得到坐标向量;而PCoA特征分解之后的特征矩阵就是HX的左奇异矩阵U,用U乘以特征值对角阵∑直接就得到坐标向量,所以叫主坐标分析。上述结论也可以从矩阵旋转拉伸的角度理解,HX=U∑VT,其中VT表示将目标向量放在V列向量构成的特征空间中,∑表示拉伸,U再转置会原空间

P27 降维6 - 概率角度P-PCA
(用到再回来学吧)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值