主成分分析PCA(哲学思想:抓住主要矛盾)

这是一个经典的说烂了的好东西。

PCA 就是 离散KL变换。手推KL变换的详细步骤见这里。

其实,PCA用一个公式就可以表示:PX=Y

  • X是原数据,是一个二维矩阵,一维是数据条数,一维是特征数,即m条数据的n个特征;
  • Y是数据经过PCA变换后得到的新数据,他在一个新的空间里。
  • P则是一组正交基组成的变换矩阵,由这组正交基完成变换。重点就是要求出它来。

为什么要发明并使用PCA?

即什么需求驱使了PCA的诞生呢?

——在社会经济的研究中,为了全面系统的分析和研究问题,必须考虑许多经济指标,这些指标能从不同的侧面反映我们所研究的对象的特征,但在某种程度上存在信息的重叠,具有一定的相关性。

这个说法大家都懂,非常好理解。

最早的使用案例

一项十分著名的工作是美国的统计学家斯通(stone)在1947年关于国民经济的研究。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息外贸平衡等等。

在进行主成分分析后,竟以97.4%的精度,用三新变量就取代了原17个变量。根据经济学知识,斯通给这三个新变量分别命名为总收入F1、总收入变化率F2和经济发展或衰退的趋势F3。更有意思的是,这三个变量其实都是可以直接测量的。斯通将他得到的主成分与实际测量的总收入I、总收入变化率I以及时间t因素做相关分析,得到下表:

在这里插入图片描述

基本思想和概念

主成分分析是一种通过降维技术把多个指标约化为少数几个综合指标的综合统计分析方法,而这些综合指标能够反映原始指标的绝大部分信息,它们通常表现为原始几个指标的线性组合。

哲学理念:抓住主要矛盾!

主成分分析将具有一定相关性的众多指标重新组合成新的无相互关系的综合指标来代替。通常数学上的处理就是将这P个指标进行线性组合作为新的综合指标。

怎么选择线性组合?

  • 如果将选取的第一个线性组合,即第一个综合指标记为F1 ,希望它能尽可能多地反映原来指标的信息,即var(F1) 越大,所包含的原指标信息就越多, F1的方差应该最大,称F1为第一主成分。
  • 如果第一主成分F1不足以代表原来p个指标的信息,再考虑选取F2即选择第二个线性组合。为了有效地反映原来的信息, F1中已包含的信息,无须出现在F2中,即cov(F1, F2)=0,称F2为第二主成分。
  • 仿此可得p个主成分。

这些主成分之间互不相关且方差递减,即数据的信息包含在前若干个主成分中,因而只需挑选前几个主成分就基本上反映了原始指标的信息。这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的解决。

数学模型

假设我们所讨论的实际问题中,有p个指标,把这p个指标看作p个随机变量,记为 X 1 , X 2 , … , X p X_1,X_2,…,X_p X1X2Xp,主成分分析就是要把这p个指标的问题,转变为讨论p个指标的线性组合的问题,而这些新的指标 F 1 , F 2 , … , F k ( k ≤ p ) F_1,F_2,…,F_k(k≤p) F1F2Fk(kp,按照保留主要信息量的原则充分反映原指标的信息,并且相互独立。

{ F 1 = u 11 X 1 + u 21 X 2 + … + u p 1 X p F 2 = u 12 X 1 + u 22 X 2 + … + u p 2 X p ⋮ ⋮ F k = u 1 k X 1 + u 2 k X 2 + … + u p k X p \left\{ \begin{aligned} &F_1=u_{11}X_1+u_{21}X_2&+\ldots+u_{p1}X_p\\ &F_2=u_{12}X_1+u_{22}X_2&+\ldots+u_{p2}X_p\\ &\vdots&\vdots\\ &F_k=u_{1k}X_1+u_{2k}X_2&+\ldots+u_{pk}X_p \end{aligned} \right. F1=u11X1+u21X2F2=u12X1+u22X2Fk=u1kX1+u2kX2++up1Xp++up2Xp++upkXp

[ F 1 F 2 ⋮ F k ] = [ u 11 u 21 ⋯ u p 1 u 12 u 22 ⋯ u p 2 ⋮ u 1 k u 2 k ⋯ u p k ] ∗ [ X 1 X 2 ⋮ X p ] \left[ \begin{matrix} F_ 1 \\ F_2 \\ \vdots\\ F_k \end{matrix} \right]=\left[ \begin{matrix} u_ {11}&u_{21}&\cdots&u_{p1} \\ u_ {12}&u_{22}&\cdots&u_{p2} \\ \vdots\\ u_ {1k}&u_{2k}&\cdots&u_{pk} \end{matrix} \right]*\left[ \begin{matrix} X_ 1 \\ X_2 \\ \vdots\\ X_p \end{matrix} \right] F1F2Fk=u11u12u1ku21u22u2kup1up2upkX1X2Xp

需满足三个条件

  • 每个主成分的系数平方和为1(只是为了归一化)
    u 1 i 2 + u 2 i 2 + ⋯ + u p i 2 = 1 u_{1i}^2+u_{2i}^2+\cdots+u_{pi}^2=1 u1i2+u2i2++upi2=1
  • 主成分之间相互独立,即无重叠的信息
    c o v ( F i , F j ) = 0 , i ≠ j cov(F_i,F_j)=0,i\not=j cov(Fi,Fj)=0,i=j
  • 主成分的方差依次递减,重要性依次递减
    V a r ( F 1 ) > V a r ( F 2 ) > ⋯ > V a r ( F k ) Var(F_1)>Var(F_2)>\cdots>Var(F_k) Var(F1)>Var(F2)>>Var(Fk)

几何解释

PCA的几何解释就是:坐标轴的平移和旋转!!!

为了方便,我们在二维空间中讨论主成分的几何意义。

设有n个样品,每个样品有两个观测变量 x l x_l xl x 2 x_2 x2,在由变量 x l x_l xl x 2 x_2 x2 所确定的二维平面中,n个样本点所散布的情况如椭圆状。由图可以看出这n个样本点无论是沿着 x l x_l xl 轴方向或 x 2 x_2 x2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量 x l x_l xl 的方差和 x 2 x_2 x2 的方差定量地表示。显然,如果只考虑 x l x_l xl x 2 x_2 x2 中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。

在这里插入图片描述
我们将 x l x_l xl 轴和 x 2 x_2 x2轴先平移,再同时按逆时针方向旋转 θ \theta θ角度,得到新坐标轴 F l F_l Fl F 2 F_2 F2

F l F_l Fl F 2 F_2 F2是两个新变量,称为原始变量x1和x2的综合变量。

在这里插入图片描述
根据旋转变换的公式:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
旋转变换的目的:使n个样品点在 F 1 F_1 F1轴方向上的离散程度最大,即Fl的方差最大。

变量 F 1 F_1 F1代表了原始数据的绝大部分信息,在研究某经济问题时,即使不考虑变量 F 2 F_2 F2也无损大局。经过上述旋转变换原始数据的大部分信息集中到 F 1 F_1 F1轴上,对数据中包含的信息起到了浓缩作用。

在这里插入图片描述

如上图,二维平面上的各点的方差大部分都归结在 F 1 F_1 F1轴上,而 F 2 F_2 F2轴上的方差很小。
这就简化了系统结构,抓住了主要矛盾。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值