与PCA相关的一些概念的集合

PCA主成分分析principle component analysis,数据预处理,对数据进行降维的重要手段。也就是分析、简化数据集。与多元统计分析理论比较密切相关。


它的一些特征:

是一个线性变换过程;

转换到一个新的坐标系统,并且求出新的坐标系统的基。

而且是一个正交变换,求出一组正交基。

新的正交基,维度一般都比源数据的维度低。

并且第一分量,正是数据在其投影上的方差最大,即新分量的方差最大。或者说,数据变化的主方向,就是协方差矩阵的主特征向量。

每一个特征值,都是与其对应分量的方差密切相关的,线性相关。特征值之和,就等于其所有点到其中心点的平方和。

比余弦变换复杂,但也比余弦变换更有效。(这个可以详细推敲下)


其算法的步骤也比较简单。一般的描述就是:

整理数据,标准化

求协方差系数

求特征值和特征向量

解释特征值和特征向量的物理意义。


但是,其推导却涉及很多数学概念,这里总结下,如果对所有概念都很熟悉,那么整体推导也就不难了。

1. 投影

投影矩阵w


W应该就特征向量组成的特征矩阵,是一个正交矩阵。可以把源数据x映射/投影到前几个分量(低维空间)的矩阵。


2. 协方差矩阵

数据标准化: 将M个特征的N个数据点,形成一个 N * M 的数据矩阵,然后去均值化。即每一数据 都减去 所在列的均值。减去均

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值