主成分分析(PCA) 学习笔记

前言

主成分分析(Principal Components Analysis)是一种常用的对高维数据降维的方法。通过PCA,我们可以在保留数据的主要信息的前提下将原始数据降维。数据的降维可以减少对数据分析及计算的成本。

1. PCA基本思想

PCA的主要思想就是将 n n n维的数据从原始空间转换到一个同样由n个正交基构成的新的空间,也就是新的坐标系。要得到这新的n个正交基,我们需要先找到第一个基,使得所有数据在这个基上的投影后的方差比在其他任何基上的投影后的方差都大。这个基的方向称为数据的第一主成分。第二个基在保证与第一个基正交的同时要使得所有数据在这个基上的投影后的方差比在除了第一个基的其他任何基上的投影后的方差都大。这个基的方向称为数据的第二主成分。类似地,剩下的基在保证与前面的基正交的基础上要使得所有数据在这个基上的投影后的方差比在除了前面选择过的基的其他任何基上的投影后的方差都大。这样我们就得到了这组数据的 n n n个主成分。根据实际需要,我们选择数据的前 k k k个主成分,这样就得到了降维后的 k k k维数据。

因为要保留原始数据的主要信息,所以转换后的数据在每个方向(新坐标系基的方向)要尽可能的分散(方差要大)。在新的坐标系下,如果数据在某个基上的投影比在其他基上的投影的方差都大,我们就把这个基的方向称为第一主成分。以此类推,我们可以通过剩下的基找出第二主成分到第k主成分。

2. 协方差

前面提到用k个正交基来构成新的空间,那么为什么一定要用正交基呢?这是因为PCA的主要目的是给数据降维,并且要保证降维后的数据尽量保持原有的特征,不希望对其他维度的数据特征产生影响,所以在新的基构成的空间中,应让数据各个维度的变量两两线性无关。当我们想去除数据某些主成分以实现降维时,降维后的数据在每个坐标轴(基)上的投影会保持不变。也就是说由于每个变量在新的空间下相互线性无关,降维不会牵连降维后数据各个维度的特征(变量的特征)。

为了实现消除各变量间的相关性,我们可以在数据变换到新的空间后使各变量间的协方差等于0。

下面是协方差公式:
C o v ( a , b ) = 1 m ∑ i = 0 m ( ( a i − μ a ) ( b i − μ b ) ) Cov(a,b) = \frac{1}{m}\sum_{i=0}^m((a_i-μ_a)(b_i-μ_b)) Cov(a,b)=m1i=0m((aiμa)(biμb))
其中 a i a_i ai b i b_i bi为第 i i i个数据的两个变量, m m m为数据的个数, μ a μ_a μa μ b μ_b μb分别为变量 a a a b b b的样本均值。

为了方便计算,我们将数据去中心化,即每个数据的变量都减去此变量的均值。此时,各变量的平均值就都变成了0。因此协方差公式可以写成:
C o v ( a , b ) = 1 m ∑ i = 0 m ( a i b i ) Cov(a,b) = \frac{1}{m}\sum_{i=0}^m(a_ib_i) Cov(a,b)=m1i=0m(aibi)

3. 协方差矩阵

现在假设我们的数据有两个变量 a a a b b b,我们用向量 (

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值