基于SAS的主成份分析——某业务增长原因分析

备注:  本文所有数据都是模拟数据,   已经脱敏

简介:

主成份分析(PCA),把多个指标转化为少数几个综合指标的降维思维。

核心思想是把m个相互存在关系的指标变量,转化为彼此独立的一组新的n个指标,一般n<m 

比如研究儿童发育的指标可能有m个,其中的腿长,胳膊长,身高等指标我们可以汇总成一个新的独立指标x。

当x指标出问题的时候,我们可以推断其身体结构的发育遇到了问题,而不是心理问题,或者教育问题,激素问题等。

主成分分析的数学模型这里不做介绍,感兴趣的可以看一下统计分析相关的内容。

作者八卦一下:在医学和生物实验中,主成分分析非常有用,尤其是通过血常规判断疾病模型方面。

项目1:单一主成份分析

为了方便大家理解主成分分析的作用,用网上某公司全国31个主要省份的每日销售金额作为分析数据源。

已知在某一年连续184天内,这个业务都是持续增长的,我们希望分析业务增长的原因。现在提供一个维度,省份维度的数据作为PCA分析的数据源。

数据源:

其中数据已经被系数化,并非真实数据。

SAS代码

data waimai_23;
input x1-x31;
cards;
143504 2 3 4 5 '''''''''#数据源此处省略,复制excel数据即可
;
proc princomp data=waimai_23 out=out1 outstat=stat1 prefix=z;
var x1-x31;
run;
proc print data=out1;
title 'output:out1';
run;
proc print data=stat1;
title 'output:stat1';
run;

SAS的分析结果

第一部分:所有原始指标变量的简单统计

第二部分:相关矩阵

 

各个变量之间的相关性关系,可以看到因为是同一维度(省份维度)的数据,所以彼此相关性都较高。

第三部分:累计贡献率

 这部分是重点,看懂SAS的输出最重要。

 特征值:特征值越高,该主成分的代表性越大。因为是单一维度,正如我们所料,合成的Z1主成分特别大,其他比较小。

差分:和下一个特征值的差异值,作为绘制陡坡图的标准。

贡献率:重要指标,即该主成分可以解释的原因。前两个主成分Z1,Z2的贡献率加在一起超过90%,我们认为可以代表自变量整体。

第四部分:

特征向量,z1=0.181222X1+0.185431X2+0.1749X3+0.18008X4.....

其中X1是标准指标变量。并不是我们原始数据的变量x1,是x1的标准指标变量.

为了帮助大家区分大小写,我们这里标记为xn1的话,其和我们的原始输出数据x1的转换关系是。

xn1=(x1-x均值)/x_sid 

毫无疑问,该业务线的增长是因为全国各省的增长造成的,各省份的增长100%的解释了因变量,并且是强相关。

如果是弱相关的若干维度指标,PCA分析得到的结论会更有价值。

但是,Z1只解释了87%,和第二主成分加在一起才能超过90%,这表现了各省份的区域特殊性。

项目2:经典主成份分析

某公司的一个业务线在2018年3月到8月出现了连续增长的情况,目前有如下几个指标和业绩增长相关。

动销门店

单均价

单均补贴

日均下单数

集团新

日均门店评分

业务新

试通过主成分进行降维分析。

data pca61;
input x1-x7;
cards;
...
your data
...
;
proc princomp data=pca61 out=out1 outstat=stat1 prefix=z;
var x1-x7;
run;
proc print data=out1;
title 'output:out1';
run;
proc print data=stat1;
title 'output:stat1';
run;

输出结果:

① x的标准差x_std, x均值

② 关系矩阵

③ 贡献率

特征值越大,自变量对因变量的变化贡献率越高,差分用来绘制特征值陡坡图,比例是能解释因变量变化的比例。

可以看到前三个主成分的累积贡献率已经达到94%。

④ 特征向量

特征向量Z相较于标准指标变量X的系数。其中X=(xi-x_)/x_std 也就是标准指标变量=(输入数据x-x均值)/x标准差。

可以看到

Z1=0.408040X1+0.343541X2+0.343980X3+0.273397X4+0.421050X5-0.407482X6+0.423190X7

通过Z1的系数,我们发现Z1是一个和动销门店,集团新客,业务新客高度相关的主成分。说明这三个指标对外卖的增长影响更大,相反看到门店评分几乎无影响,所以在分析外卖增长的时候,这个门店评分基本可以忽略。(例如将这个主成分命名为供给指标)

Z2是一个和单均价,日均下单数高度相关的主成分。

Z3是一个和单均补贴高度相关的主成分。

以此类推。

通过上面的关系,我们解析出Z1,Z2,Z3相较于原始输入数据的函数关系。

Z1=5.84312E-06 x1+4.91949E-06 x2+4.92578E-06 x3+3.91503E-06 x4+6.02942E-06 x5-5.83513E-06 x6+6.06006E-06 x7

Z2=此处略

Z3=此处略

备注x1-x7的业务含义

动销门店

单均价

单均补贴

日均下单数

集团新

日均门店评分

业务新

x1

x2

x3

x4

x5

x6

x7

应用:将某一天或者某一个省份的7个指标带入Z1,Z2,Z3的计算公式,得到Zn1,Zn2,Zn3的值,和上面计算得到的5.15912759 ,0.87403705 ,0.57502177 比对大小,可以得到哪一个主成分贡献了增长。

如Zn1明显大于5.15912759则是供给指标的增长带动了外卖增长。

编者按:主成分分析在生物医药领域应用广泛,比如血常规检测的时候会得到很多的血液指标,假如m个指标。

通过主成分分析,可以浓缩为n个指标,效果好的话,n远小于m。

其中n1可以是代表炎症的指标,由m1(白细胞绝对值),m2(巨噬细胞数量),m3(淋巴细胞绝对值)构成。医生看到n1即可快速锁定问题,不需要再去看m。

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值