多元统计
一、多元线性回归分析
多元线性回归模型概述
一个变量受多个变量的影响在现实中多见,如人的体重与身高、胸围;血压值与年龄、性别、劳动强度、饮食习惯、吸烟状况、家族史;快递费与重量、运送距离。
一个因变量(被解释变量) 与 多个自变量(解释变量)之间设定的是线性关系
多元线性回归模型一般形式为:
模型假设: 一解释变量 Xi 是确定性变量,不是随机变量; 解释变量之间互不相关,即无多重线性;随机误差项不存在序列相关关系;随机误差项与解释变量之间不相关;随机误差服从0均值,同方差的正太分布。
最小二乘估计:
显著性检验
-
拟合优度检验:
-
回归方程的显著性检验(F检验): 检验Y 与解释变量 X1,X2 … Xk之间的(整体来讲)线性关系是否显著。
-
回归系数的显著性检验(t检验): 回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要。
例题:某品种水稻糙米含镉量 y (mg/kg)与地上部生物量x1 (10 g/盆)及土壤含 镉量x2 (100 mg/kg)的8组观测值如下表。试建立多元线性回归模型。
求解:
SAS程序:
/*数据段*/
data ex; /*表示建立的数据集为ex*/
input x1-x2 y @@; /*@@表示连续输入数据*/
cards;
1.37 9.08 4.93 ....
;
/*程序段*/
proc reg; /*调用回归模块*/
model y = x1 x2/cli; /*对y关于x1,x2做回归,cli表示要求预测区间*/
run;
回归方程的显著性检验
由方差分析表可知,其F value=494.06,pr>F的值<0.0001,远小于0.05,故拒绝原假设,接受 备择假设,认为y1 与x1,x2之间具有显著性的线性关系。
参数显著性检验
二、聚类分析
聚类分析概述:
聚类分析 是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。将相似元素聚为一类(同一类中的对象的相似性比与其他类之间的相似性更强),通常选取元素的许多共同指标,然后通过分析元素指标值来分辨元素间的差距,从而达到分类的目的。
聚类分析 可以分为:Q型(样品分类)分类、R 型(指标分类)分类。
由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在 一起进行比较分析,通常都要对数据进行变换处理,常用方法有:中心化变换;规格化变化(极差正规化);标准化变换;对数变换等。
聚类的根据是相似性统计量(表达样品之间的相似程度),相似性统计量通常有两种, 一是相似系数,常用相似系数有:夹角余弦、相关系数、指数相似系数、非参数方法;二是 距离,将样品看作P维空间的一点,通过计算不同样品的距离,距离越接近的点归为一类, 距离远的点归为不同类。常用距离有:明科夫斯基距离;欧氏距离;绝对值距离;切比雪夫 距离;兰氏距离;马氏距离。
进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生 不同的聚类方法,如系统聚类法、有序样品聚类法、模糊聚类法、动态聚类法、图论聚类法 等。
常用的系统聚类方法有8种:最短距离法; 最长距离法;中间距离法;重心法;类平均 法;可变类平均法;可变法;离差平方和法
系统聚类法的一般步骤:
- 1)每个样本独自成类,Gi = {Xi} i = 1,2,… n
- 2)由距离矩阵或相似性系数矩阵D,找到当前最小的Dij,并将类Gi、Gj 合为一类得到一个新类Gr = { Gi,Gj}
- 3)从新计算类间的距离,得到新的矩阵D
- 4)重复第2步直到全部合为一类。
**举例:**从21个工厂中抽出同类产品,每个产品测两个指标,数值如下 图,将各厂的质量情况进行分类。
data ex; /*SAS 程序*/
input x1 x2 factory$@@; /*$:表示字符型变量*/
cards;
/*数据省略*/
;
proc cluster/*系统聚类*/
data = ex method = ward ccc pseudo outtree = tree;/*ward 表示离差平方和法,如sin表示最短距离法,ccc表示计算R2,半偏R2 和 ccc统计量,pseudo表示计算伪F 和伪T2统计量*/
id factory
run;
proc tree data = tree horizontal; /*水平树*/
id factory; /*工厂为样本*/
run;
ccc表示要计算半偏R2,R2和ccc立方聚类标准统计量,这三个统计量和下面的伪F和伪t2统计量, 主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损 失程度,统计量大表明损失程度大。 R^2统计量反映类内离差平方和的大小,统计量大表明类内离差 平方和小。 ccc统计量的值大说明聚类的效果好。
Pseudo说明要计算伪F和伪t2统计量。一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类 选择。当把数据从G+1类合并为G类时,伪t2统计量的值大,说明不应该合并这两类
Cluster History表示聚类的具体过程,NCL表示当前系统存在类的总个数,Clusters Joined表示当前 加入的编号,例如NCL等于20时是类1,2聚为一类,FREQ表示新类的元素个数。SPRSQ表示类与类间 规格化最短距离,RSQ表示R2统计量,ERSQ表示半偏R2统计量,CCC统计量值。PSF为伪F统计量, PST2为伪t2统计量。Tie表示“结”,是指当前类间最小距离不止一个的时候,此时可以任意选择一对最 短距离进行聚类,在计算其他类与新类的距离。从CCC统计量的结果可以看出,最大值对应的类数为4。 从四类合并为三类时,伪t2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最 为合适。
三、判别分析
判别分析概述
判别分析是一种在一些已知研究对象用某种方法已经分成若干类的情况下,根据样品的观测数据 来确定样品属于哪一类的统计分析方法。
判别分析最初应用于考古学(产生于20世纪30年代), 例如,根据挖掘出来的人头盖骨的各种指标 来判别其性别年龄等。
近年来, 在生物学分类, 医疗诊断, 地质找矿, 石油钻探, 天气预报等许多领域, 判别分析方法已经成 为一种有效的统计推断方法。
为了能识别待判断的对象x 是属于已知类A1, A2,…, Ar中的哪一类,事先必须要有一个一般规则, 一旦知道了x的值, 便能根据这个规则立即作出判断, 称这样的一个规则为判别规则(用于衡量待判对象 与各已知类别接近程度的方法准则)。
判别规则往往通过的某个函数来表达, 我们把它称为判别函数, 记作W(i; x)。
常用的方法有:距离判别法、Fisher判别法、贝叶斯判别法、逐步判别法
Bayes判别法的一般步骤
- 1.计算各类中变量的均值 Xj — 及均值向量xh (h = 1,2,… k),各变量的均值xj (j = 1,2,… p)及均值向量 x;
- 2.计算类内协方差矩阵S及其逆矩阵S -1;
- 3.计算Bayes 判别函数中,各变量的系数级常数项并写出判别函数;
- 4.计算类内协方差矩阵W 及总 各协方差矩阵T作多个变量的全体判别效果的检验;
- 5.各个变量的判别能力的检验
- 6.判别新样本应属于的类别。
举例:
人文发展指数是联合国开发计划署于1990年5月发表的一份 <<人类发展报告>>中公布的数据如下,试通过已知的样品建立 判 别函数,误判率是多少?并判断待判的归类。
求解:(SAS 程序)
data ex;
input g x1-x3 @@;
cards;
1 76 99 5374 1 79.5 99 5359 1 78 99 5372 1 72.1 95.9
5242 1 73.8 77.7 53702 71.2 93 4250 2 75.3 94.9 3412 2
70 91.2 3390 2 72.8 99 2300 2 62.9 80.6 3799
;
data ex1;
input x1-x3 @@;
cards;
68.5 79.3 1950 69.9 96.9
2840 77.6 93.8 5233
69.3 90.3 5159
;
proc discrim data = ex testdata = ex1
anova manova simple list testout = ex2;
class g;
proc print data = ex2;
run;
Proc Discrim后的常用选择项有:
(1)Data=数据集名,指定输入数据集名,若缺省则指定最新建立 的数据集。
(2)Testdata=数据集名,指定待作出判别的数据集名,其中的变量 名须与Data数据集中的变量名一致。
(3)Testout=数据集名,指定输出数据集,输出Testdata数据集中 所有观测值以及每个观测值的后验概率和判别后的类别。
(4)List,指定打印每个观测值的回代结果。
(5)Anova,指定输出各类均值检验的一元统计量。
(6)Manova,指定输出各类均值检验的多元统计量。
(7)Simple,指定打印总体和组内的简单统计量。
四、主成分分析
主成分分析概述
主成分分析是一种通过降维技术把多个变量化为少数几个主成分(即综合变量,通常表示为原始变量 的线性组合)的统计分析方法。
其基本思想是变量的降维,就是将原来众多的具有一定相关性的变量重新组合成一组新的相互无关 的综合变量来代替原来的变量。
将注意力集中于各次观测中具有最大变异的那些变量,对各次观测中变化不大的变量,可视为常数处理, 因而降低了问题中的变量的维数
主成分分析的一般步骤
- 1对原始数据矩阵进行标准化处理(相当于对原始变量进行坐标平移与尺度伸缩);
- 2 .求协方差矩阵Z;
- 3.特征分解得Z(相当于将原来的坐标轴进行旋转得到新的坐标轴U),得Z的p个非负特征值,这p个特征值就是主成分的方差;
- 4.确定主成分个数(根据累计贡献率);
- 5.写出主成分表达式;
- 6.构造评价函数
**例题:**以下是收集整理了的1990-2002年13年间影响中国蔬菜产量的若 干因素数据,请对这些影响因素作主成分分析,并分析结果。
SAS 程序
data ex;
input x1 - x13;
cards;
/*数据省略*/
;
proc princomp out = prin;/*主成分分析模块*/
var x1-x13;
run;
proc print data = prin;
var prin1 - prin13;
run;
第一主成分与蔬菜种植面积、每公顷物质费用、蔬菜零售物价指数、市场 化程度、城市化水平1、城市化水平2、交通、城镇居民可支配收入、农村居民 纯收入、农民文化素质等密切相关,表示的是市场经济综合因素,着重反映的 是市场经济的成熟程度与国家现代化水平;
第二主成分与每公顷劳动投入、成本纯收益率等密切相关,表示的是劳动 者动力因素;
第三主成分与气候条件密切相关,显然表示的是气候因素。
五、因子分析
因子分析概述
因子分析模型也是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些 具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组 的变量间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这 个基本结构就称为公共因子。对于所研究的某一具体问题,原始变量就可以分解成两部分之和的 形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊 因子
在研究中很多情况下我们所要研究的变量是不能直接测量的。如,研究家庭环境、社会环境和 学校环境对儿童智商的影响,这三个变量都是不能或不易直接观测得到的。 我们称这种不能或不易 直接观测得到的变量为潜在变量或潜在因子。虽然这些潜在变量不能直接测量,但是它们是一种抽 象的客观存在,因此一定与某些可测量变量有着某种程度的关联。
又如,设X1-X5是五个指标变量,它们分别表示收缩压、舒张压、心跳间隔、呼吸间隔和舌下 温度。从医学知识可知,这5个指标是受自主神经的交感神经和副交感神经支配的,而交感神经和副 交感神经状态又不能直接测定。 用F1、F2分别表示交感神经和副交感神经这2个因子, Fj对各Xi的 影响是线性的,再加上其它影响因子ei,则各Xi与F1、F2的关系可表示为:
因子分析一般步骤
- 1)类似主成分分析,计算xk— (平均值)sk,k,j= 1,2,… m,建立基本方程组;
- 2)用主成分分析法确定因子载荷阵A;
- 3)方差极大正交旋转,对变量系数极值化(尽量趋于0或1);
- 4)得到因子得分函数,计算样本因子得分。
应用举例 :已知12个地区的5个经济指标:人口总数、学校总数、就业人口、服务业总 数、房子个数。依据已知的5个经济指标,对12个地区的综合经济实力进行分析。
SAS 程序
data ex842;
input objects$ pop school emply services house @@;
cards;
/*数据省略*/
;
proc factor data = ex84 method = principal
rotate = varimax /*表示因子旋转*/
percent = 0.8 /*要求累计贡献率大于0.8*/
score outstat = ex1; /*计算因子得分*/
var pop school employ services house;run;
proc score data = ex842 score = ex1 out=ex2;
var pop school employ services house;
run;
proc print data =ex1;
proc print data = ex2;
run;