pca主成分分析结果解释_(白话)主成分分析PCA

beb5db4155d0af5ed78cee70538d25e7.png

3c98f4a6ff02d254849a9d538323e7f4.png

主成分分析,Principal Component Analysis (PCA),是现代数据分析的标准工具,它可以把庞大复杂的高维数据集,通过数学变换,转化成较低维度的数据集,并去除掉维度之间的相关性。本文会以一种直观的方式来解释PCA,便于大家对其开箱即用。

2cfbc58c2eb593d2e77ae579284223af.png

1. 举例

假设我们是实验人员,正在尝试通过测量系统中的各种数据(如频谱、电压、电流等)来理解某种现象。但数据很多,且很混乱,不好判断哪些是有用的,哪些是多余的。现实工作和生活中,有很多类似的问题,比如神经系统、网页索引、气象和海洋学等复杂系统,需要我们抽丝剥茧,找到问题的本质。

以物理学中的一个理想弹簧为例,如Figure 1所示。该系统由无质量、无摩擦的沿x轴方向的弹簧和附着其上的质量为m的小球组成。沿x轴把小球拉开一段距离,弹簧处理拉伸状态。放开小球,系统会沿着x轴振动,也就是说,它的运动方程是关于单变量x的。假设在做实验之前,我们并不知道这一结论,因此我们在三维空间中的位置,放置了三台摄像机A,B,C(它们的角度并非互相垂直),这三台摄像机同时开始以同样的频率拍摄系统的运动轨迹。有了这三台摄像机的观察数据之后,我们怎么能根据这些数据,最终得到关于x的方程呢?

7ccaaef9559732d346a45cc3db20fc10.png

如果实验前我们有先验知识的话,我们会选择沿着x轴进行拍摄,并不需要记录y轴方向的数据。 但现实生活中我们往往并没有足够的先验知识,不清楚用什么样的方式来测量数据,可能统计出来的数据超出了实际需要。另外,我们还需要处理噪声,比如上面的例子中的空气阻力、摩擦力。噪声会污染数据集,增加了我们获取信息的难度。

PCA的目的是,找出数据集中最有意义的数据,能够过滤掉噪声并揭示隐藏的结构。在上面的弹簧示例中,PCA的明确目标是确定运动方向是沿着x轴的,换句话说,确定x轴方向的数据是最重要的。我们有3个相机A、B、C,每个相机都记录了x轴方向和y轴方向的坐标,把同一时刻的样本数据放在一起,就可以表示成6维列向量:

如果我们观察了10分钟,并以120HZ的频率拍照,那么我们便记录了

共72000组向量。

我们用一般化的数学语言来描述:

样本向量

是一个m维的向量,m是测量的维度。这个向量是在一个m维向量空间中由其一组正交基进行线性组合而成。那么这个正交基是什么呢?通常这个正交基是默认的。以相机A的测试数据为例,
对应的正交基通常是
,但是为什么不选择
,或者其他正交基呢?因为正交基反应的是我们收集数据的方式。在
中的数据(2,2),在
中需要记录为
。因此基的选择对应着数据记录的方法。在线性代数中标准正交基是
的单位矩阵:

每一行都是一个包含

个元素的标准正交基。假设我们的数据都是根据上述基来记录的,那么每一个数据都是{
}的线性组合。

2. 用数学语言描述PCA

PCA要解决的问题是,是否存在另一组基(原基的线性组合),可以更好地表达我们的数据集?令

是原始数据集,它的每一列都是一个样本数据,按照上面弹簧的例子来讲,它是一个
维矩阵,
,
。令
是另一个
维矩阵,它是
经线性变换
转换而来,即
即为
的另一种表达。设:
  • 的行
  • 的列
  • 的列

也就是说:

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值