EverydayOneCat
ʚฅ•ﻌ•ฅɞ 🪐 🌈
知识点
1.笔记
2.正态性检验
Pearson相关系数的适用条件:
(1)两变量的总体服从正态分布
(2)样本容量较大,都是连续型变量
(3)变量必须是成对数据
SAS代码:
data ex;input x@@;
cards;
97 130 156.5 135.2 137.7 180.5 205.2 190 188.6 196.7 180.3
210.8 196 223 238.2 263.5 292.6 317 335.4 327 321.9 353.5
397.8 436.8 465.7 476.7 462.6 460.8 501.8 501.5 489.5
541 519 559.8 542 567
;
proc univariate data=ex normal;/*表明做正态检验*/
var x;
histogram x;/*画直方图*/
probplot x;/*画分布函数*/
run;


3.偏相关系数
SAS代码:
data ex;input y k s l t@@;
x1=log(k);x2=log(s);x3=log(l);y1=log(y);
cards;
70.8972 40076.5884 825.1305 15347.4273 1
83.7506 48008.7690 915.1500 15832.0950 2
70.8627 44593.8425 804.150 13306.8090 3
78.3451 43460.3229 783.2100 13314.5700 4
98.0749 72657.2633 923.8050 14596.1190 5
134.8767 146108.3421 1282.8900 20911.1070 6
147.5315 162433.3500 1244.7000 18670.5000 7
154.7607 166979.6325 1330.5150 18627.2100 8
159.9743 190395.5262 1505.4600 20775.3480 9
198.4942 205914.6645 1738.4100 22599.3300 10
194.7943 189762.7335 1677.0900 20963.6250 11
187.1013 193463.610 1761.9450 21936.2153 12
235.1184 183768.4035 1779.1500 19606.2330 13
;
proc corr; var y1 x1; run;
proc corr;var y1 x1;partial x2 x3 t;run;/*求y1和x1去除x2和x3的影响的偏相关系数*/
4.典型相关系数
例蔬菜产出水平主要体现在蔬菜总产量(Y1)、人均蔬菜占有量(Y2)、蔬菜总产增长速度(Y3)三个方面,并称作因变量组(简称“产出组”)。问题:因变量组与自变量X1(市场经济综合因素)、X2(劳动力动力因素) 、X3(气候因素)(简称“影响组”)的关系如何?
SAS代码:
data ex;input y1-y3 x1-x3 @@;
cards;
19519 170.72 9.8 -4.62 -0.54 -1.4
19578 176.22 0.3 -4.13 -0.2 0.97
19637 170.69 0.3 -3.5 -1.93 0.36
19695 166.18 0.3 -2.98 0.29 -0.18
16602 138.52 -16 -1.72 1.37 1.59
257232 110.7 54.9 -0.94 2.73 -0.42
30379 248.22 18.1 0.79 0.13 -1.34
34473 278.85 13.5 1.42 -0.2 0.59
38485 308.47 11.6 1.61 -0.7 -0.8
40514 322.09 5.27 2.07 -0.09 -0.45
42400 334.54 4.66 3.37 -0.97 1.1
48337 378.74 14 3.92 -0.1 0.53
52909 411.89 9.46 4.72 0.1 -0.59
;
proc cancorr data=ex all;var y1-y3; with x1-x3;/*固定写法,记住即可*/
run;
整理得到蔬菜产出水平与影响因素的三个自变量的典型相关系数及特征值
序号 | 典型相关系数 | 标准误差 | 特征值 | 特征值方差比率 | 累计方差比率 |
---|---|---|---|---|---|
1 | 0.969221 | 0.017497 | 15.4987 | 0.8699 | 0.8699 |
2 | 0.769604 | 0.117696 | 1.4527 | 0.0815 | 0.9514 |
3 | 0.681054 | 0.154778 | 0.8651 | 0.0486 | 1.0000 |
结果表明:前两个典型相关系数较高,表明相应典型变量之间密切相关。
序号 | F计算值 | 自由度 | F检验的显著性概率 |
---|---|---|---|
1 | 9.38 | 9 | <.0001 |
2 | 4.56 | 4 | 0.0120 |
3 | 7.79 | 1 | 0.1765 |
结果表明:只有前两对典型变量通过了统计量检验,表明相应典型变量之间相关关系显著,能够用三个自变量影响变量来解释产出变量。
典型相关模型结果如下:
序号 | 典型相关模型 |
---|---|
1 | v1=6.1649 Y1-5.2034 Y2+0.0696 Y3 w1=0.9953X1-0.0054 X2-0.0948X3 |
2 | v2=14.7443Y1-15.0750Y2+0.9105Y3 w2= - 0.0132 X1+0.9591 X2-0.2804 X3 |
结果分析:自变量X1即市场经济综合因素对中国蔬菜产出水平起根本性作用。市场经济综合因素与蔬菜总产出的关系体现在第一对典型变量v1和w1中,v1是中国蔬菜产出水平各指标的线性组合,其中,蔬菜总产出(Y1)的载荷为6.164,是各产出水平指标中最大的。w1是影响因素指标的线性组合,其中市场经济综合因素(X1)的载荷为0.9953,远远超过w1内其它指标的数值。考虑到第一对典型相关变量的相关系数几乎接近于1,可以认为,市场经济综合因素对蔬菜总产出水平起根本性作用。自变量X2即劳动力动力因素是决定人均蔬菜占有量的关键因素。
第二对典型变量中.人均蔬菜占有量(Y2)在典型变量v2中的载荷为-15.075,是各产出水平指标中最大的,而自变量X2则在典型变量w2中载荷最大,为0.9591。这一对典型相关变量的相关系数非常之高,表明自变量X2对劳动力动力因素起关键作用。
在第二对典型变量中,Y1与劳动力动力因素关系也非常密切。因为在第二对典型变量中,Y1在v2中的载荷14.7443,与Y2差距并不明显。由此可以分析的处,用Y1作为产出水平的代表,X1、X2、X3作为影响变量建立因果拟合模型效果是最好的。
5.主成分分析
起源一:寻找重要因素
在若干个相互关联、关系复杂的一组变量中,想找到最为关键的因素,是一个重要的科学问题。在寻找关键因素过程中,还需要找到能够反映该组变量这个群体的主要特征。
起源二:综合评价要求评价指标线性无关
在做综合评价的时候,往往需要将多个评价指标综合成一个指标。综合时除了需要将指标同向,还需要评价指标间线性无关或者不相关。
但是很多实际问题中,指标之间是高度关联的,在这种情况下如何进行综合评价?
起源三:建立回归模型的需要
在做多元线性回归模型时,理想状态下是需要自变量线性无关的。
而且,模型拟合时,还需要样本点的个数n与自变量的个数p满足一个不等式:n>3(k+1)
一旦两个条件有一个满足,回归模型的效果将受影响
例:以下是收集整理了的1990-2002年13年间影响中国蔬菜产量的若干因素数据,请你对这些影响因素作主成分分析,并分析结果。
SAS主成分软件包:princomp
编写SAS代码:
data ex;
input x1-x13;
cards;
/*数据省略*/
;
proc princomp out=prin;
var x1-x13;/*确定分析哪些元素*/
run;
proc print data=prin;
var prin1-prin13;/*需要打印出来的值*/
run;
从程序结果可以看出,第一、第二、第三主成分累计解释方差的比率已经超过了94%,所以只需要求λ1、λ2、λ3所对应的正交化特征向量αi(i=1,2,3)
根据这个就可以写出Z的表达式:
Z1=a1*X,Z2=a2 *X……其中X=(x1,x2,……,x13)
α1=(0.31,0.29,-0.22,0.30,-0.09,0.31,0.30,0.30,0.30,0.31,0.31,0.31,0.13),
α2=(-0.03,0.23,0.51,0.11,0.77,0.01,-0.09,0.13,0.19,0.07,0.04,-0.03,-0.09),
α3=(0.03,-0.03,0.24,-0.08,0.01,-0.03,0.02,-0.06,-0.04,-0.03,-0.08,0.05,0.96)
结果分析:
α1第一主成分在整体最为重要,接着我们看这些因素在第一主成分中的绝对值哪个最大,哪个就相当于对总体为重要。
第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的是市场经济的成熟程度与国家现代化水平;
第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动者动力因素;
第三主成分与气候条件密切相关,显然表示的是气候因素。
主成分得分:相当于把Z1,Z2……算出来

6.因子分析
因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。
因子分析一般步骤:
1)类似主成分分析,计算 及s , k, j =1,2,…m,建立基本方程组;
2)用主成分分析法确定因子载荷阵A;
3)方差极大正交旋转,对变量系数极值化(尽量趋于0或1);
4)得到因子得分函数,计算样本因子得分。
例:已知12个地区的5个经济指标:人口总数、学校总数、就业人口、服务业总数、房子个数。依据已知的5个经济指标,对12个地区的综合经济实力进行分析。
分析:由于指标个数较多,不便于分析排序。因此,考虑先做因子分析找出指标的共同因子,再计算因子得分,通过分析因子得分来评价该地区的经济指标。
data ex;
input objects$ pop school employ services house@@;
cards;
/*数据省略*/
;
proc factor data=ex /*factor表示调用因子分析模块*/
method=principal rotate=varimax /*rotate表示因子旋
转*/
percent=0.8 /*要求累计贡献率大于0.8*/
score outstat=ex1; /*计算因子得分*/
var pop school employ services house; run;
proc score data=ex score=ex1 out=ex2;
var pop school employ services house; run;
proc print data=ex1; proc print data=ex2;
run;
结果表明,5个因子对应的特征值,特征值表示因子贡献率。通常确定因子个数时,要求因子累计贡献率大于80%。结果表明应选取2个因子,记为F1,F2 贡献率分别为57.47%、35.93%。
确定因子载荷阵系数,得到初始的特征向量:
由于对应实际问题,公共因子的实际意义不好解释。因此考虑将指标的系数极值化,即让系数趋于1或0,趋于1说明公共因子与该指标密
切相关,否则趋于0时说明相关程度很低。由此,要做因子旋转实现系数的极值化。
第一公因子和学校、房子、服务密切相关,可推断其代表福利水平,第二个同理推出代表经济水平。
因子得分:
以上为12个样本的5个指标值,以及2个公共指标的得分,因子F1中J地区的得分最高,说明该地区的服务教育服务设施较好。因子F2中L地区的得分最高,说明该地区的就业情况较好。
因子分析与主成分分析的区别与联系:
因子分析、主成分分析都是重要的降维方法(数据简化技术),因子分析可以看作是主成分分析的推广和发展。
主成分分析不能作为一个模型来描述,它只能作为一般的变量变换,主成分是可观测的原始变量的线性组合;因子分析需要构造因子模型,公共因子是潜在的不可观测的变量,一般不能表示为原始变量的线性组合。
因子分析是用潜在的不可观测的变量和随机影响变量的线性组合来表示原始变量,即通过这样的分解来分析原始变量的协方差结构(相依关系)。
7.聚类分析
进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。
例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类。

SAS代码:
data ex;
input x1 x2@@;
cards;
0 6
0 5
2 5
2 3
4 4
4 3
5 1
6 2
6 1
7 0
-4 3
-2 2
-3 2
-3 0
-5 2
1 1
0 -1
0 -2
-1 -1
-1 -3
-3 -5
;
proc cluster /*软件包*/
data=ex method=ward ccc pseudo outtree=tree;
proc tree data=tree horizontal; /*画图 horizontal表示画平行的,不是竖的*/
run;
ccc表示要计算半偏R2,当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。R2统计量反映类内离差平方和的大小,统计量大表明类内离差平方和小。ccc统计量的值大说明聚类的效果好。
综合各方面的结果,因此分4类最为合适。
综合以上分析