主成分分析-PCA

关于PCA,一提到PCA就要反应到降维,一提到降维就要反应到PCA。

举个例子。每个人都有很多不同的性质,高矮胖瘦,谈吐气质等等,但是我们一开始区分他们并没有用到特别多的特征,大致记个长啥样身高如何的,下次看见就能再认识了。这。就是降维。PCA就是干这事的。

下面再介绍一个更形象的例子,2维图中存在着这样一群点。我们希望能将这些点压缩至一维。一旦压缩到一维了信息量肯定有损失,这是必然的,但是我们希望它损失的并没有那么大,尽量还保存着多一点的点的位置关系信息。于是,直观上来看,就是我们拿一根筷子(怎么又是筷子?!)在这么多点之间进行比划,主要是旋转筷子的方向。然后看这些点是否映射在筷子上面的时候分散的比较开,也或者看是否这些点映射到筷子上面的时候,所要移动的距离最短。后面不少内容就是围绕着这两点进行的。根据这两条准则,我们可以判断出这幅图中u1的方向的筷子更适合来表示这群点。


接下来,主要谈论这两条准则:

1.最近重构性

何为最近重构性,就是样本点到这个超平面(直线的高维推广)的距离都足够近。也就是上文中这些点是否映射到筷子上面的时候所要移动的距离最短。


也就是使得图中的加起来最小。这是二维的解释,那高维中如何解释呢,就是原来的样本点到基于投影重构之后的之间的距离最小。

说一个前提,就是所有的样本xi都是去均值化的(毕竟我们要反映信息,一定是变化才有信息,样本间的位置差别方可反映该样本的信息,也是为了后面的简化运算,这里就去均值了,,当我们处理“自然图像“分类时候,我们对图像的整体亮度并不感兴趣,所以去均值,我们有时也需要使得不同特征的方差相似,不过”自然图像“做方差归一化的意义也不大,因为它任意统计性质都应该和其他部分相同,图像这种性质叫做平稳性)

那么又是怎么生成的呢,就是生成投影坐标+投影+重构。

第一步是生成投影坐标,假设投影之后的新坐标系是(原来xi的维度也是d维),其中是标准正交基向量,就相当于是二维xy坐标系中的xy,一维的那个x轴一样)。这时候生成新的坐标系这就相当于把原来的坐标系进行了一个旋转,原来的点并没有发生什么变化,要知道我们做的就是降维。所以,我们要丢弃新坐标系中不太重要的部分坐标,用剩下来的d’维坐标去最大化近似表示原来d维坐标所表示的东西,这才是降维啊~好的,将维度降低到维,去除d-d‘维的坐标。

第二步是投影,样本在低维坐标系中的投影是,也是,其中是xi在低维坐标系下第j维的坐标。至于为什么投影要相乘,高中数学老师说投影就是要向量相乘。这个的意思就是在新的坐标系中每个方向的数值是多少。

第三部是重构,也就是将第二步中新坐标系中每个方向的数值大小结合新坐标系的坐标方向信息从而重构出原始信号(btw,如果没有之前的降维。那么重构信号等于原始信号)。得到

好,样本重构已经完成,下面进行的就是最小化样本点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值