主成成分分析(PCA 数据降维)

在很多场景中需要对多变量数据进行观测,在一定程度上增加了数据采集的工作量。更重要的是:多变量之间可能存在相关性,从而增加了问题分析的复杂性。

主成分分析(Principal Components Analysis, PCA)是一种使用最广泛的数据降维算法(非监督的机器学习方法)。旨在降低数据的维数,通过保留数据集中的主要成分来简化数据集(选取出更便于人类理解的特征)。

主成分分析的主要思想: 

将 n 维特征映射到 k 维上,这 k 维是全新的正交特征(称为主成分),是在原有 n 维特征的基础上重新构造出来的 k 维特征。参考主成分分析法(PCA)思想及原理

方差

方差(Variance)分为总体方差(Population Variance)和样本方差(Sample Variance)。

Q1:什么是总体?什么是样本?

  • 总体,即大同小异的对象的全体,例如中国的所有成年人,某所小学的全体学生;
  • 样本,即通过抽样,从研究总体中抽取的少量有代表性的个体所组成的集合。

 总体方差的计算公式:

 样本方差的计算公式:

Q2:方差是怎么来的? 

统计学中重要的概念:

  • 总体中个体的特性总是通过一个或多个数量来描述,这些用于描述个体属性的指标就称为变量(Variable)(例如,身高、体重、性别、年龄、职业等)。变量又分为定量变量(例如,年龄:35岁)和定性变量(例如,年龄类别:18-35岁)
  • 一个总体中有许多个体,他们之所以成为研究对象,必定存在共性(比如性别、年龄、职业等属性),这些共性即称为同质性(Homogeneity)。从统计学角度看,同质性指方差同质性(equality of variance),即不同变量或群组之间分散的程度要一样或接近,这样的数据才具有可计算和可比性。
  • 然而,同一总体内的个体也会存在差异,这是绝对存在的,这些差异就是我们强调的变异(Variation)。
  • 集中趋势(Central Tendency)是指:样本的共同点(同质性)使得某一变量值会趋向于同一数值,比如身高,在图形上就表现为变量值聚集在某个中心值的周围,也称为平均水平,如均数或中位数
  • 离散趋势Dispersion Tendency)是指:由于各种原因(遗传、环境等),同一个总体中的个体之间都不会完全相同,所以某个变量的值不会都是同一个数值,而是向平均水平左右的方向移动,而分散开来。(例如,某地区男性身高的平均值是1.7,意味着,该地区每个个体的身高都会在1.7上下)

方差标准差是综合衡量这片数据个体间差异的大小的一个重要指标。

我们用每一个个体的身高值与平均值相减做平方,再加和除以总人数,就得到了方差(开方后即得到“标准差”) 

Q3:计算样本方差时为什么是除以(n-1)?

概率理解:对于 n 个样本,如果我想抽取的容量是 n(计算总体方差),事实上(需要计算样本方差)只能抽取 n-1 个样本(即 n-1 个自由度,n-1 个独立信息片段),因为最后一个样本是可以通过 \bar x 算出来的。这个时候只要抽取 n-1 个样本,所以每个样本被抽取的概率是 1/(n-1)。 

统计学研究,就是希望在这个现实社会中透过大片的数据获取我们想要的信息。

统计学重要的研究内容之一是“用样本推测总体”。具体而言,就是用样本均数和样本标准差来估计总体均数和总体标准差(对于一个特定的总体,总体均数和总体标准差是恒定不变的),而这里的估计有一个很重要的原则就是“无偏估计(Unbiased Estimator)”。所谓”无偏“,就是样本值应该围绕总体值上下波动的,不能总在总体值的上面,或者总在总体值下面。

但是,从总体中进行抽样,每次抽样便获得一个特定的样本,样本值也就变化一次。下面不等式恒成立。左边是样本方差,右边是总体方差。

现实中我们无法计算总体均数 μ,当用样本均数代替总体均数后,上面左边的式子总是小于右边的式子。因此,如果我们采取左式计算样本方差,那它就不是总体方差的“无偏”估计了,而是总小于总体方差。 

我们假定随机变量 x 的数学期望 μ 是已知的,然而方差 σ2 是未知的,在这个条件下,根据方差的定义我们有:

现在,我们考虑随机变量 x 的数学期望 μ 是未知的情形。这时,我们会倾向于直接用 \bar x 替换掉上面式子中的 μ,但是这样就出现了不是总体方差的“无偏”估计的问题。参考无偏计算公式

由此我们可以明显发现这个估计其实只有在 x = μ 时才是无偏估计,为了满足 “无偏”条件,唯一的办法就是将它的分母调小,左边的样本方差值就会变大,这就是分母 n-1 的由来。

参考样本方差的分母n-1是如何推导的(马同学的回答)

2 协方差

样本方差是用来衡量单个随机变量离散程度(如:人口中一个人的身高的变化),而协方差(Covariance)则是来刻画两个随机变量相似程度(如:一个人的身高和人口中一个人的体重)

随机变量自身的协方差的计算公式:

两两之间的协方差的计算公式

3 从方差和协方差到协方差矩阵

有如下协方差矩阵公式可知,对角线上的元素为各个随机变量的方差,非对角线上的元素为两两随机变量之间的协方差,

4 主成分分析的数学原理:

通过对协方差矩阵进行特征分解,从而得出主成分(特征向量)与对应的权值(特征值(Eigenvalue))。然后剔除那些较小特征值(较小权值)对应的特征,从而达到降低数据维数的目的。参考PCA(主成分分析)的理解与应用

  • 33
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瑞雪兆我心

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值