PCA降维理解

PCA(主成分分析)是一种常用的降维方法,通过选取方差最大的k个特征向量来表示数据,以达到降维和特征显示的目的。PCA首先对特征去中心化,然后计算协方差矩阵,接着找出矩阵的特征值和对应的特征向量,最后将原始数据投影到这些特征向量上,形成新的低维表示。
摘要由CSDN通过智能技术生成

       选取特征值最高的k个特征向量来表示一个矩阵,从而达到降维分析+特征显示的方法。

      一个45度倾斜的椭圆,在第一坐标系,如果按照x,y坐标来投影,这些点的x和y的属性很难用于区分他们,因为他们在x,y轴上坐标变化的方差都差不多,我们无法根据这个点的某个x属性来判断这个点是哪个,而如果将坐标轴旋转,以椭圆长轴为x轴,则椭圆在长轴上的分布比较长,方差大,而在短轴上的分布短,方差小,所以可以考虑只保留这些点的长轴属性,来区分椭圆上的点,这样,区分性比x,y轴的方法要好!

      所以对于一个k维的特征来说,可以看成它的每一维特征与其他维都是正交的(就像在多维坐标系中,坐标轴都是垂直的),然后我们可以变化这些维的坐标系,从而使这个特征在某些维上方差大,而在某些维上方差很小,方差更大具有更明显的特征表现。所以PCA的方式就是取n个较大方差所对应的特征项向量作为一种降维后的坐标系,从而将整个特征投影过去,完成特征数的降维。

    例如,现有M个样本\left \{ X^{1}, X^{2},X^{3},...,X^{M}\right \},每个样本可以提取出N维特征X^{i}=\left \{ x_{1}^{i}, x_{2}^{i}, x_{3}^{i},..., x_{N}^{i}\right \}^{T},那么它可以建立一个M*N的矩阵。要相对这N维特征进行降维,就需要尽可能将原始特征往具有最大信息量的维度上进行投影,找到这个维度也就是投影矩阵的方式就是计算M*N矩阵的协方差矩阵,得到协方差矩阵的特征向量和特征值,取其中最大的k个特征值对应的特征向量(也就是即将投影的坐标系)组成N*k的特征矩阵(投影)。(降维后一行向量每个值,可以理解成这行原特征向量分解投影在现选降维坐标系的值),M*N矩阵与N*k特征矩阵的结果就是M*k的矩阵,代表M个样本降维成k维的矩阵。

       具体计算:

第一步:对特征去中心化(去均值),原特征每维减去当前维均值。(几何意义使使样本分布离散在坐标原点,减少误差)

第二步:求协方差矩阵

第三步:求协方差矩阵C的特征值和相对应的特征向量

 第四步:将原始特征投影到选取的特征向量上,得到降维后的新k维特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值