关于降维的一些理解

1.为什么要降维?
维度诅咒。一些低维的性质在高维并不适用。如下

高维所需数据呈指数增长:假如以为需要10个,二维就需要10的平方,三维就需要10的3次方。

计算更加复杂:比如高维空间中两点之间的距离计算会比二维的更复杂。

局部泛化能力低:对于有些高维情况,用SVM训练,所有数据都成了支撑向量,计算复杂。

2.高维为什么可以做降维?
是因为在实际生活中,维度之间有相关性,比如函数就等效于降维,像y=x,将二维降成一维。

3.PCA(主成分分析)
(1)主成分:数据变化剧烈的方向,也就是数据在这个方向投影方差最大,这个方向就是主成分所在的方向,与这个方向垂直的方向则是变化程度最小的。
(2)如何求得主成分的方向?
以二维数据样本X为例,将这些样本看成是一个均值为0,标准差为1,两个维度独立的高斯分布样本G,先进行两个维度上的缩放(L),再乘以一个正交矩阵U旋转所得。
所以样本可以写为:
在这里插入图片描述
U就是我们所求的投影方向。
样本X的协方差矩阵E可以写为:
在这里插入图片描述
在这里插入图片描述  写到这里,我们会发现U就是样本X协方差矩阵的特征向量。特征值较大的是主成分,所对应的特征向量就是要投影的方向,特征值就是样本投影到特征向量上后的方差大小。
  PCA方法是基于样本数据本身的降维,属于无监督,是线性降维方法的一种。如果在求协方差矩阵前,做了非线性变换,可以解决一些非线性数据的降维,这个就是核PCA。非线性降维的方法还有LLE。
  如果已经知道样本的标签,也可以采用线性判别分析(LDA)进行降维,它的目标函数是使得类内样本方差经可能小,类间样本方差尽可能大。神经网络也可以通过调节隐藏单元数做降维。还有一些其他的方法可以降维。在大量数据分析中降维可以加快效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值