统计学习方法-主成分分析(Principal Component Analysis ,PCA )

本文介绍了主成分分析PCA的原理,从统计学的基础概念出发,讲解了协方差矩阵的计算及其在PCA中的作用。PCA作为一种降维工具,旨在通过线性变换将高维数据投影到低维空间,同时保持数据的主要特征。通过特征值分解协方差矩阵,选择最大特征值对应的特征向量作为新坐标系,实现数据的降噪和去冗余。
摘要由CSDN通过智能技术生成

1. 主成分分析 ( Principal Component Analysis , PCA )
是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间.

 

2.  协方差矩阵:(reference:http://pinkyjie.com/2010/08/31/covariance/

统计学的基本概念

学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合X=\{​{X_{1},\ldots,X_{n}}\},依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。

均值:\bar{X}=\frac{\sum_{i=1}^n  X_{i}}{n}
标准差:s=\sqrt{\frac{\sum_{i=1}^n (X_{i}-\bar{X})^2}{n-1}}
方差:s^2=\frac{\sum_{i=1}^n (X_{i}-\bar{X})^2}{n-1}

很显然,均值描述的是样本集合的中间点,它告诉我们的信息是很有限的,而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例,[0,8,12,20]和[8,9,11,12],两个集合的均值都是10,但显然两个集合差别是很大的,计算两者的标准差,前者是8.3,后者是1.8,显然后者较为集中,故其标准差小一些,标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n,是因为这样能使我们以较小的样本集更好的逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。【1】

为什么需要协方差?

上面几个统计量看似已经描述的差不多了,但我们应该注意到,标准差和方差一般是用来描述一维数据的,但现实生活我们常常遇到含有多维数据的数据集,最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集,我们当然可以按照每一维独立的计算其方差,但是通常我们还想了解更多,比如,一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊,嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量,我们可以仿照方差的定义:

var(X)=\frac{\sum_{i=1}^n (X_{i}-\bar{X})(X_{i}-\bar{X})}{n-1}

来度量各个维度偏离其均值的程度,协方差可以这么来定义:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值