pca主成分分析理解笔记

一.PCA降维的目的(目标)

就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行 降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小。将原有的M维数据集,转换成N维的数据(N<M)。新生成的k维数据尽可能的包含原来d维数据的信息。

目标(1).找到变异最大的新维度,以最大程度地区分不同数据点。(2).这一新维度应该可以让我们预测和重建原始维度,重建或投影误差(reconstruction/projection error)应该最小化

我需要分析一个城市的现状是否适合居住,我需要通过这个城市的GDP,人口数量、交通情况,天气情况,面积、宗教信仰等特征,随后一列就是几十列特征属性,甚至几百都不过分。但是问题是,当我们需要做一些分析的时候,比如聚类、分类、回归的时候,会增加我们的计算机的压力。于是我们发现能不能降低少一点,比如GDP和交通情况有关,天气情况和交通情况有关。这么多彼此相关的特征属性去描述一件事物,一方面很复杂,另一方面似乎也显得不是那么有必要,我们希望能在原有基础上减少特征属性的数量。降维指的就是这个意思。

那就是不是部分特征相似,冗余,需要去除呢。如何去除呢?错了。PCA并没有丢弃特征,而是创建了新特征,这些新特征一般通过线性组合起来。

二.该如何创建新特征呢?

在PCA中,你可以想象数据是在多维坐标系中,一个特征对应一个坐标系,数据从原来的坐标系(旧特征)转换到新的坐标系(新特征),由数据本身决定。通过旋转坐标系产生新的坐标系,其实就是从旧的特征中产生新的特征,新的坐标系就是新的特征,那么什么时候这个新坐标系才是最好的,那么神奇的方差就出现了,方差越大,数据差异性越大,包含的信息越多。查看下图一,蓝点是数据点,红点是在直线上的投影,在图二的时候,数据点在新的坐标系的投影(红色的点)的范围最大的时候是在图二的时候。就是方差最大的时候。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向,第三个是与第1,2个轴正交的平面中方差最大的方向。重复该过程,重复次数为原始数据的特征维数。

                                                                     【图一】

                                                                                    【图二】

“数据点在新的坐标系的投影(红色的点)的范围区域最大的时候是在图二的时候”就是说我们已经完成主成分分析西的第一个目的,当你完成第一个目的的时候第二个目的就顺带完成了。为什么怎么算呢?这个涉及到勾股定理。

第二个的目的其实就是计算投影到这个新的坐标系(维度)上面距离最短的时候,因为新坐标系(维度)的中心点(中心值)固定不变。B点想象成上图中的某个数据点,C点是B点在新维度上的投影点,A点是新维度的中心点。 根据勾股定理:由于每个点(B)到新维度中心点(A)的位置是确定的,即c的平方是固定的,那么,当新维度上点(C)与中心点点(A)之间越分散,即b的平方最大时,a的平方也最小,即投影误差最小。

  通过这种方式获得的新的坐标系,我们发现,大部分方差都包含在前面几个坐标轴中,后面的坐标轴所含的方差几乎为0,。于是,我们可以忽略后面的坐标轴,事实上,这样也就相当于只保留包含绝大部分方差的维度特征,而忽略包含方差几乎为0的特征维度,也就实现了对数据特征的降维处理。

  是几维的数据当然好算了,如果是32维、64维的,那么怎么算?有没有轻巧灵便的办法进行计算。事实上,可以通过计算数据矩阵的协方差矩阵,然后得到协方差矩阵的特征值及特征向量,选择特征值最大(也即包含方差最大)的N个特征所对应的特征向量组成的矩阵,我们就可以将数据矩阵转换到新的空间当中,实现数据特征的降维(N维)。

更多的信息可以查看下面的链接,欢迎大家关注。

什么是PCA - 知乎一.PCA降维的目的(目标) 就是为了在尽量保证“信息量不丢失”的情况下,对原始特征进行 降维,也就是尽可能将原始特征往具有最大投影信息量的维度上进行投影。将原特征投影到这些维度上,使降维后信息量损失最小…https://zhuanlan.zhihu.com/p/434445710

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值