spss多元非线性曲线拟合_SPSS学习之旅——课程笔记(三)

91cad4b3a7102dc52f7a56173c29329e.png 830b926da2060396d977ac05a658672a.png a80048fca516d276614ee077373de71e.gif

SPSS学习之旅98bb50e641155257af498d45f9e3daf7.png——课程笔记(三)

回归分析

一、回归分析与相关分析的异同

同:都是研究现象之间存在的相互关联关系的方法。

异:①回归分析区别自变量和因变量,相关分析不区分;②回归分析中,因变量是随机变量,自变量是非随机变量。相关分析都是随机变量;③回归分析是通过数学模型和公式来表现现象之间相关的具体形式,相关分析只是表明现象是否相关,无法指出具体形式。

二、线性回归的分析过程

确定两种或两种以上的变量之间的因果关系,建立回归关系并根据实测数据求解模型的各个参数后,评价回归模型是否能很好的拟合实测数据,预测因变量。

三、回归分析的分类

①按自变量多少可分为:一元和多元回归分析

②按自变量和因变量之间的关系类型也可分为:线性回归分析和非线性回归分析

③交叉组合:一元线性回归、多元线性回归

四、线性回归的原理

观测值找出线性回归的数学模型,通过数学模型得到线性方程,再通过最小二乘估计得到线性方程的系数,最后进行检验,包括相关系数检验、f检验、t检验。目的是检验自变量和因变量是否存在线性关系,回归效果是否显著。还会对模型假设进行检验。

9.1线性回归

操作步骤:分析-回归-线性-将想要分析的自变量(可选多个,上一页下一页可分组)和因变量选入-选择合适的方法和筛选条件(将某变量选入选择变量,再设定规则,只有符合规则的才可进入回归分析-选择个案标签(即顺序)与wls权重(即权重变量)-选择需要的统计、绘图

71e9feb7f3dc02d2b55c044643326bb4.png

方法中输入是指自变量全部选入回归模型。①逐步:选择对因变量贡献最大,并满足判断条件的自变量回归方程,然后将模型中复核剔除条件的数据变量移出模型。重复测量直到没有变量被引入或剔除;②删除:建立全模型,根据剩余条件剔除部分变量;③后退:建立全模型,根据选项框的设定条件,每次将一个不符合条件的变量从模型中剔除,反复至没有模型被剔除;④前进:从自变量开始,根据判定条件,每次将最符合条件的自变量引入模型,直到所有复核判定条件的自变量都引入模型。第一个引入的变量和模型应该是最不相关的。

4756738b222496abdae5d09a13825564.png

统计对话框中回归系数选项栏——①估计:输出回归系数的标准化的回归系数、回归系数的t检验及双侧检验的显著性概率;②误差条形图的表征:即置信区间;③协方差矩阵:输出回归系数的协方差矩阵和相关系数阵。

残差选项框——①个案诊断:可输出离群值,可设置判定标准。当输入3时就是,残差超过3倍的标准差时就会被判定为离群值。所有个案即输出所有观测值的残差。右侧的R方变化输出模型中引入或剔除一个自变量时R方的改变量;②描述性:输出描述统计量包括均数、标准差、相关系数矩阵;③部分相关和偏相关性:因变量和某个自变量,当已移除其他自变量对该自变量的线性效应之后,因变量与该自变量的相关性。偏相关是对两个变量由于他们与其他变量之间相互关联引起的相关性之后,这两个变量之间剩余的相关性;④共线性诊断:由于一个自变量是其他自变量的线性函数时,所引起的共线性是不被期望的,勾选此项可得出共线性值的结果,包括特征根、条件指数、方差、方差因子等。

c2df902c304c29feb6d4d7dfe4e55b9c.png

左侧从上至下:*ZPRED:因变量;标准化的预测值;标准化残差;剔除残差;修正后的预测值;学生化残差;学生化剔除残差。(左侧内容可选入右侧的散点1 的1)

对学生化剔除残差选入y轴,因变量选入x轴——单击下一页——第二对将标准化的预测值选入y轴,因变量选入x轴。

产生所有部分图是输出每个自变量的残差相对于因变量残差的分布图(要求至少有两个自变量)。

73d7449dee01a6099f22f966ce8ee4c0.png

预测值——①调节:调整的预测值,当观测值排除在回归方程之外时得到的回归方程对观测值的预测值;②平均值预测值:预测值的均值标准物。对于自变量具有相同值的个案对应的因变量平均值标准差的估计。

距离——①mahalanotis:自变量个案值与所有个案平均值的距离。值过大时表明该个案自变量取值有异常;②Cook距离:把一个个案从计算回归值,回归系数样本去除时,所有个案残差变化的大小,距离越大,表示回归统计排除的个案对回归系数的影响越大;③杠杆值:用于测量单个观测对拟合效果的影响程度,取值0-(n-1)/n。0时表示此观测对拟合无影响,取值越大影响越大。

预测区间——平均值是指平均预测响应的预测区间的下限和上限,单值是单个个案的因变量预测区间的下限和上限。

残差(因变量实际值-按回归方程预测的值)——①学生化的残差:残差/残差标准化的估计值;②删除:个案被排除时,个案的残差,即观测值与调整观测值之差;③学生化已删除:删除残差/个案的标准物。

影响统计——①Dfbeta:删除个案回归系数的变化值;②Dfit:删除个案产生预测值的变化值;③协方差比率:删除个案后协方差矩阵与全部观测量的协方差矩阵的一个比值,取值越接近1说明影响越小。

输出:anova表显著性,如果<0.05就拒绝零假设(回归系数都为0)。观察四种模型回归平方和如果占总计平方和的数值的最大部分说明拟合效果较好。

系数表根据各模型非标准化系数可推算出式子。

排除的变量表中可从偏相关列分析得出,除了被排除的因素与因变量相关性最高的自变量(数值越大越高)。

9.2曲线估计

研究时不能马上确定一种模型时可以考虑使用曲线估计,可以帮助我们找到适合的模型。

要求:自变量因变量都是数值型的连续变量,如果自变量是时间刻度那么估计过程中将自动生成时间变量,同时因变量也是以时间间隔为刻度的变量时时间间隔和单位应当是完全相同的。

操作步骤:分析-回归-曲线估计-分别选入因变量/自变量/个案标签和对应的模型进行曲线估计-完善其他按钮-输出

输出:选择模型的各表中anova表中显著性<0.05意味着模型成立。

系数中显著性<0.05意味着模型中系数是十分显著的。只有显著才成立,不显著说明模型不合适。合适情况下主要比较调整后的R方,越大越好。图中,圆点是观察值,线是模型,越拟合越好。

9.3非线性回归

用于建立因变量与一系列自变量之间的非线性关系,通过迭代估计算法,可估计自变量和因变量之间具有任意关系的模型。

操作步骤:图形-图形构建器-散点图,将xy轴选入

分析-回归-非线性-模型表达式(根据图形选择适合的模型)-点击左侧参数按钮选择相对应的参数-损失、约束(可定义参数的范围)-保存变量(预测值、残差、导数)

选择残差平方和时系统默认的使用残差平方和作为损失函数。用户可以定义损失函数。设置函数表达式,在下框选入。

656862c4865f38298c033ebbe9d40e6a.png

非线性回归选项,用于计算每个参数的估计标准物,用原始数据的参数值,作为每个抽样样本的估计值的初始值。

估计方法——①序列二次编程,适用于约束模型和不约束模型,如果确定限制模型或定义损失函数,系统默认此项;②利用双重迭代进行求解,每次迭代建立一个二次规划算法,确立寻找方向,把估计参数不断带入函数进行求值,直到寻找过程中发生收敛即可停止。

判断依据——①最大迭代;②步长限制(正值参数允许的最大变化量);③最优性容差;④函数精度(最优性容差应当大于函数精度);⑤无限步长(一步迭代过程中参数变化大于设置值迭代的终值)。

右侧Leven只适合非约束性模型。

输出:可得知参数,拟合效果。

9.4二元logistic回归

二元变量:死亡/未死亡;购买/未购买。二元变量无法采用一般的线性回归分析进行线性回归,因为残差不满足正态性、无偏性的假设,所以希望过某些预测变量的值来预测某种特征或结果存在的时候,且因变量是二元变量。

操作步骤:分析-回归-二元-将因变量与协变量选入-选择合适的方法-选择变量就是选择需要筛选的变量-选择分类将分类协变量选入后,可对其方法进行选择并选择参考类别,系统默认最后一个-保存

8352b59150c48e05510526791b2ce5db.png

方法——①输入:协变量全部进入模型;②向前:有条件的——向前逐步法得分统计量的显著性模型,将变量剔除模型的是依据是条件参数估计的似然比统计量的概率值;③向前:LR——变量剔除依据是最大偏似然估计的似然比统计量的概率值;④向前:wald——将变量剔除出模型是wald统计量的概率值。(向后同理)

37d2149d11817efb312306d537a468c0.png

预测值中的组成员:即根据预测概率,得到每个观察量的预测分组。

影响:设置对每一个观测量影响类指标。

残差:Logit逻辑残差,残差/预测概率*(1-预测概率)。

b2c8ebfbebafbc29a75383818ce4ac09.png

统计和图——①分类图:分类图输出因变量的预测值和观测量的分类直方图;②拟合度:一个拟合良好的统计量;③个案残差列表同上;④估计值的相关性:输出各变量估计参数的相关系数矩阵;⑤迭代历史记录:迭代过程中输出的表统计量,相关系数、对数似然比;⑥Exp的ci是置信区间。

输出:是指在每个步骤都输出还是在最后一个步骤输出。

步进概率:变量概率小于等于进入值才能引入模型。概率大于删除概率才可删除。

分类分界值:对观测量分类的临界值,大于的归位一类,小于的归为另一类。

输出:方程式中没有的变量,显著性都小于0.05,所以变量进入模型都是有意义的。模型摘要中-2对数似然来度量模型对样本数据的拟合度,如果模型拟合度好,值相对来说较小,值大话模型拟合效果不好。H和l检验统计量显著性小于0.05,说明方程拟合效果理想不理想。根据分类表是否含有癌细胞百分比预测,可得出预测准确性。方程式中的变量可以根据系数写出方程式。

9.5多元logistic回归

多个二元logistic回归分析模型,描述多类别与参考类别之间的比较的作用大小。

操作步骤:分析-回归-多项logistic-选入因变量、因子(自变量)、协变量(控制变量)-设置模型

8631e14188cc690aaa7aab0964ba5c13.png

参考类别——①第一类别就是所有类别都与第一类别进行比较;②最后类别就是与最后一类进行比较;③定制可自选第二三类。

类别顺序——①升序(最小一类设置为第一类);②降序(最大设置为第一类)。

49497030f160a47f642964869f247744.png

统计模型——①伪R方:主要输出三个伪r方的统计量;②信息标准:逐步回归的判别准则;③单元格可能性:输出期望频数和观测频数、协变量的比率和响应分类;④分类表:响应和预测响应的一个表;⑤拟合度:输出皮尔逊卡方和似然卡方的统计量;⑥单调性测量:和谐对数,不和谐对数节点数。

参数——①输出模型参数估计值,包括置信区间;②似然比检验:模型偏效应,似然比检验统计量;③渐进相关:参数相关系数矩阵;④渐进协方差:参数估计的协方差矩阵,可定义置信区间。

定义字群体——因子和协变量定义的协变量模式:对所有的因子和协变量进行拟合优度检验,由下面的变量列表定义的协变量模式就激活下表选入子群体。

dbc0f8a50a29cf443de6ad7852e3e120.png

迭代——①最大迭代:指定最大的迭代数,必须是

239f585894199708e09ea794f048ef2a.png

离散度量——刻度:选择一种度量离散情况的刻度。

步进选项——①输入可能性:指定变量引入模型的检验统计量的概率临界值。系统默认0.05,值越大越容易引入模型;②输入测试:可指定似然比和得分;③删除可能性:指定变量剔除模型的检验统计量的概率临界值,越小越容易剔除;④模型中的最小最大分布效果:模型包含的最小最大项目数。

输出——①模型拟合信息:前面连写的数字明显小于仅有截距时,说明最终模型好于之前的模型,所以成立,对于显著性小于0.05,说明模型成立;②联合优度:如果显著性>0.05则不能拒绝原假设(模型可以很好的拟合数据);③似然比检验:显著性<0.05则对方程参数的影响是显著的;④参数估计值:参数是B,显著性决定变量对模型影响是否显著;⑤分类:预测值中,把“早餐吧“预测成燕麦的是多少,预测的正确率是多少。

9.6有序回归

有序:很好、较好、一般、较差。一步步不同程度的变量属于有序变量。

操作步骤:分析-回归-有序-因变量和因子(自变量或可能相关的变量)

dbc0f8a50a29cf443de6ad7852e3e120.png

链接部分(链接函数是针对变量的不同情况来选择的)——①Cauchit:针对潜在变量存在较多极端值时;②补充对数:用于可能存在较好类别时使用;③Logit通常用于均匀分布的情况;④负对数对数,用于可能存在较多类别时使用;⑤概率用于潜在变量为正态分布的情况。(前面部分同上)

输出:模型拟合信息、联合优度、伪R方。参数估计时如果治疗治疗效果3的数值>0.05,即不显著,就是治疗效果3对于1、2、4来说效果没区别。

9.7概率单位回归(常用)

概率单位回归用于分析刺激的强度和对刺激输出特定响应个案之间的个案比率之间的关系。给病人不一样的用药量对病人康复率的影响。用于估计特定比率响应所需的刺激强度。

操作步骤:分析-回归-probit-选入响应频率(因变量,因为用药剂量不同导致害虫死亡数不同,这时的响应频率就是死亡数)、观测值汇总(自变量指定水平下观测值的总数,如果观测死亡的虫子数就要观测他的总数)、因子(自变量,要观测的自变量,比如观测药品效果就将药品123选入,如果观测药品剂量则选入剂量为自变量)、协变量(不同的实验刺激条件值,协变量和概率不存在线性关系时转换选择以10为底的对数)-模型(概率适合设置的实验,logit回归更适合观察研究)-选项

9494ceb4f2c0262fe2995784577c59f3.png

①平行性检验:假设所有内容中具有相同的斜率;②自然响应频率:没有刺激条件的响应,无就是不计算自然响应,从数据中计算,值就是用户指定但是小于1。

输出:卡方检验中并行性检验显著性大于0.05,说明是相互平行的。

置信限度:概率(达到这个程度的具体程度因变量,致死率达0.01的)估算(剂量需要多少,自变量)。

相对中位数强度估计值:药品1比药品2的半数死亡估计值是0.834。

已变换的probit图如果是线性的说明比较合适,没有线性就需要换一个模型。

9.8加权回归

前提条件:建立线性回归前要求方差样本具有方差同共方差性。就是指所有的观测值在计算过程中对线性回归模型具有相同的贡献。普通:最小二乘法,如果不具有方差同共性,考虑使用加权最小二乘法。

对数值的要求:自变量和因变量都应该是数值型变量,部分变量还应当重新编码成二分变量或其他类型的对比变量,加权变量必须与因变量是有关的数值型变量,自变量的每个取值对应的因变量分布是正态分布的,因变量和自变量的关系是线性关系,并且所有的观测量应当是相互独立的。自变量取不同值时,因变量的方差差异一定是可以根据加权变量预测的。

操作步骤:第一步:方差诊断判断是否具备同共方差性的诊断即先建立线性回归

分析-回归-线性-绘图(zresid标准化残差选入y轴,zpred标准化预测值选入x轴)结果中散点图可观察随着预测值增大,残差也有增大的趋势就说明可使用加权最小二乘法;第二步:分析-回归-权重估计(选入自变量因变量)

输出:R平方和调整后的r平方数值大的话说明拟合程度不是很好。Anova表中回归的显著性<0.05,则说明回归解释的变异远大于残差解释的变异。

系数表显著性小于0.05说明这些系数对模型的构建作用都是显著的。回归效果较好。

非参数检验

将相似事物归位一类,样本聚类(个案聚类)、变量聚类。样本聚类将性质相同的个案归位一类,变量聚类是将变量性质相同的归位统一类,主要用于减少变量个数。

10.1快速聚类

快速分类,适用于大样本聚类分析。

操作步骤:分析-分类-k平均值聚类-将需要聚类的变量选入变量框,还可选择标注个案(顺序或区别的个案)-选择对应的聚类数和方法

db389e1ff9b5e63d890dbeb2fec0bb3c.png

聚类数即分成几类,必须>=2。

方法——①迭代与分类:聚类过程中使用k平均值算法,不断的计算类中心,并根据结果,更换类中心,把方程记录更换为最近的类中心标志;②仅分类:在选定初始的类中心之后,在聚类过程中不改变类中心。

8572c4e94514a0ff80174dfbce859a3d.png

①迭代中的收敛性标准是指初始聚类中心的最小聚类的比例必须>=0<1(如果两个数之间的距离为几时就可聚为一类)。

②使用运行平均值:表示每个观测量被分到一类后就可以计算新的类中心。不勾选的话就是分配了个案之后才勾选新的聚类中心。

daf2382bae2a34f92d5c8567f22699e7.png

①聚类成员:保存各观测量被分配到哪一类去了。

②与聚类中心的距离:保存各观测所处的类中心。

输出:初始聚类中心、迭代历史记录(每次迭代后类中心的变化量从大到小)、聚类成员表(比如该例中第一个个案聚类到第二类,距离聚类中心3462.323)anova表显著性小于0.05说明,聚类能显著区分123类,每类之间差异很大。

10.2系统聚类

限于较小的数据文件,能对变量或个案进行聚类。可以计算可能解的范围,并为每一个解保存聚类成员。系统聚类可分解为分解法和凝聚法,分解法是聚类开始前将所有内容视为一个类,根据距离和相似性原则,逐层分解。凝聚法将每个个体视为一类根据距离和相似性原则逐步合并,直到将所有个体合并为一类。

操作步骤:分析-分类-系统聚类-变量选入要进行分类的变量-选入标注个案-可选择R型Q型聚类即个案聚类还是变量聚类-可选择输出矩阵信息和图

5ca9365cc9c7844b1349efb07712e398.png

统计——①合并进程表:输出聚类过程中的过程表,每一类合并的类,观测量之间的聚类信息;②近似值矩阵:输出各项之间的相似性矩阵。

聚类成员——①无:不进行聚类;②单一方案:指定聚类数;③方案范围:对聚类数设置范围。

628b8c8df934460ba4b5df6af3efd55b.png

①谱系图:树形图,用于评估所形成聚类的凝聚性。

②冰柱图:所有聚类就是把聚类的每一步表现在图中,聚类指定全聚,可以看第几类到第几类,第几类停止聚类,排序标准和间隔;无就是不输出冰柱图。

③方向:可以设置冰柱图的方向,垂直或水平。

70363fd07cdfa6574ca6608944297114.png

聚类的方法——①组之间的链接:合并两点的依据是两两配对成员之间平均距离最小,配对成员分别属于不同的类;②组内链接,两类合并为一类时,类中所有成员两两距离最小;③最近邻元素:首先合并最近或最相似的两个成员,然后又用两类之间最近点距离代表两类距离;④最远邻元素:首先合并最近或最相似的两个成员,然后又用两类之间最远点距离代表两类距离;⑤质心聚类:先计算各类中所有成员的均值,然后用这些均值间的距离计算;⑥中位数聚类:先计算两个类之间配对成员之间的距离,然后以中位数为类中心计算两类之间的距离;⑦Ward方法:最小方差法合并两类的依据是方差最小。

输出:平均联接,第一列阶段4中,集群1、2中2和18归为一类,集群1 的2首次出现时是第3阶段,第三阶段的2和15被归为一类了,现在2、15、18均为一类。在对应的最后一栏下一阶段中,可看到该类下一阶段出现在第几阶段。

聚类成员中可看到,如果分为5个集群,哪些个案分别被分到哪些集群中。

冰柱图如下:

0927c3543bf1250266ec9840af8ab11b.png

判断方法:在聚类个数(纵轴中)5刻度处画一横线,冰柱左侧为一类,右侧为一类,再次被划分时又是冰柱左侧是一类右侧是一类。即如果聚为5类,左右侧分属于不同的类。

谱系图如下:

d48df8f14bc0f34d6fe308079d1c4fa5.png

判断方法:如果沿着刻度5划一条竖线,与几条横线相交就分为几类,并且包括横线下方那些个案分为一类。比如刻度5划线时分为三类时,第一类时青海到广西,第二类湖南到北京,第三类江苏到山东。

之后进行多维数据集分析:

操作步骤:分析-报告-OLAP-将之前的要分类的变量选入摘要变量-将分类成员保存的变量选入分组变量

输出:双击选择olap多维数据集,右键选择透视托盘,将变量放入列中,统计和分类成员选入行中,分析结果。

10.2两步聚类

探索性工具,揭示原始性自然分组分类,能同时处理分类变量和连续变量,系统自动选择最佳聚类个数。

第一步构建分类特征数,将观测量放在树的叶节点根部,指定距离测度作为测量相似性依据。第二步凝聚算法对特征数叶节点进行分组,判决来确定最佳聚类个数。

操作步骤:分析-分类-两步聚类-将(汽车类型)选入分类变量,(价格、宽度长度、轴距)选入连续变量

024e3ed21bff802ee089617b5af0e14e.png

距离测量——①对数相似值:假设连续变量是正态分布的,分布变量是多项式分布,所有变量相互独立可选择对数相似值;②Eudidean:测定变量之间的直线距离,适用于所有变量都是连续变量。

聚类数量可选择自动确定,也可指定固定的值。

连续变量计数:选入几个连续变量就是几个。

8b57f16f80e31488ff9a6857660e1fbf.png

离群值处理——使用噪声处理是指当某一节点包含的个案数与最大叶子数之比,小于指定的百分比,就认为叶子稀疏,叶子长满之后稀疏节点合并为一个噪声节点,重新执行树的生长,再次长满后,需要判断,树是否留在特征树上,如果不可就直接删除了。若不勾选此项,当特征树满了之后将使用较大距离,更改阈值进行总域增长,当聚类结束后不能被分为任何一类的观测就被标记为离群值,会被标记为-1并且不会包括到聚类数的计数中。

dea36acffe1009d25b8fbc2989baaaf0.png

CF——①树调节准则:初始距离更改阈值如果给定个案插入到树上的叶子中,将生成小于阈值的紧度,那么不会拆分叶子。超过阈值会被拆分;②最大分支:系统默认为8个,最大树深度级别,系统默认为3可指定;③可能的最大节点数:由系统计算而来。

9910e3e8411f66cb08503c7a102d36a2.png

透视表:四个表格bic/aic统计表、连续变量的均值和标准差、最终分类的观测个数统计表、最终分类变量的频数统计表。最终可导出模型和cf树。

输出:自动聚类表好的模型是指:较小的bic值较大的bic更改比率,较大的距离度量比率。聚类分布是第一类多少个占比多少。质心针对连续变量的质心。

频率:按照类型分的频数表。

判别分析

11.1判别分析

判别分析是研究分类的重要办法,聚类分析是对未知内容进行分类,判别分析是根据一定指标,对未知类别的数据进行分类,已针对的样本数据类别是已知的。

原理:利用已知对象的某些观测指标和所属类别根据判别准则建立一个或多个判别函数。用研究对象的大量资料确定判别函数中待定系数并计算判别指标,用总结的判别规则确定其他未知对象属于哪一类,聚类分析的样本数据是未知的,但是判别分析对现在的样本数据是已知的,建立规则确定未知对象属于哪一类。一般联合使用:先用聚类分析对样本数据进行分类,再用判别分析,建立判别式,对未知对象进行判别。

判别分析的一般步骤——第一步:根据已知的分类数目,利用观测量特征的变量值推导出判别函数,并对各组观测量自变量的值,回代到判别函数中,根据函数对所属类别进行判别;第二步:对比原始数据分类和判别函数分类给出判别准确率;第三步:选择拥有较高准确率的判别规则。

11.2一般判别分析

操作步骤:分析-分类-判别-将组别选入分组变量输入最小最大值-选入自变量(一起输入自变量,把指定变量全部放入判别函数中不管变量对判别函数是否起作用,使用步进法就是逐步判别法)

5d3a1e0359ad2e3783878659eae40cb2.png

描述性——Bor's M协方差矩阵:用于检验各类别协方差矩阵是否相等。

函数系数(用于判别函数系数的形式)——①Fisher是用于对新样本判别分析的系数,对每个类别给出一类系数,将其得分最大的那一类中;②未标准化:未经标准化判别处理的一个系数。

f50fc5d6d64fc4585aa80db4970ad3b0.png

先验概率——①所有组都相等:各类别先验概率相等,如果样本有n类那他们的概率为1/n;②所有组的大小计算,各类别先验概率和样本量是成正比的。

使用协方差矩阵——①在组内:指定使用合并的那类协方差矩阵进行分类;②分组:使用每个类别的协方差矩阵进行分类

输出——留一分类:输出交互检验的信息,除去单个观测以外的其他观测导出的判别函数。

图——①合并组:根据前两个判别函数的得分所做的类别散点图;②分组:如果只有一个判别函数就输出直方图;③面积图:把平面划分成与分类个数相同的区域,每类占据一个区域,各类区域均值星号标注。

9dab8bf475ca88f611973028bdc14132.png

①预测组成员:观测量的预测分类;②判别分数:保存判别得分;③组成员概率:保存观测记录属于组成员的概率

输出:组统计:冠心病和正常人的舒张压和胆固醇的数值。组平均值的同等检验,两组的显著性都小于0.05,说明两组数据的ab指标都存在显著不同。测试结果显著性大于0.05说明同意原假设,总体协方差矩阵是相等的。如果相等选择共享的矩阵,如果不等则使用协方差矩阵。特征值:函数是指用几个函数可以解释变异。Wlks’lambda是指判别函数在统计学上是否具有显著意义。显著性小于0.05则说明有意义。

标准规范判别式函数系数就是标准化后的函数的系数,可得出判别式。规范判别式函数系数是没经过标准化的。结构矩阵可看出判别函数中哪个贡献较大(本例是舒张压)组质心函数,是两组的重心。分类函数系数,可得两组判别式。分类结果中,横向是本来的,纵向是预测结果,即第一行,将冠心病人预测成冠心病的有12人,预测成正常人有3 个。

11.3逐步判别分析

假设已知各类,均属于多元正态分布,选择最能反应类别间差异的变量,来建立最好的判别函数,从没有变量开始,每一步都要进行判别检验。随着每一步,把模型外对模型贡献最大的变量先引入模型中,同时把模型中但不符合条件的剔除,新引入的变量有可能是原来在模型中的变量,贡献逐渐不够显著的变量。

操作步骤:分析-分类-判别-步骤同上,选择方法使用步进法

a37b892696ccf942ee9d2905cd8d034a.png

标准——①使用F值:使用f值为判断依据,即如果f值大于等于进入值则进入模型,如果小于删除值就删除。②使用f概率:小于进入值进入,大于删除值删除。

输出:分析结果同上。

因子分析

12.2因子分析

从变量中提取综合性变量,使这些变量涵盖大部分信息,又尽量使这些变量相互不相关。数据变量降维,提取综合变量进行分析。

操作步骤:分析-降维-因子分析-将需要分析的因子(变量)选入变量框,选择变量

5e922291097f42ee9dc51eb0a4b11df5.png

Statistics——①单变量描述性:输出参与变量原始变量的均值、标准差、有效取值个数;②原始分析结果:初始公因子、特征根、贡献率等信息。

相关性矩阵(初始变量的相关系数矩阵、相关系数矩阵的行列式、输出相关系数的逆矩阵)——①再生:输出因子分析的相关矩阵;②反映象:输出反映象的相关矩阵;③Kmo:用于检验变量之间的偏相关是否很小;④barttelt检验用于检验相关矩阵是否是单矩阵,各变量之间是否独立。

6d02066a5e872bc554a0e5d20c81c6ab.png

抽取:方法默认主成分分析法可更改.

分析——①相关性矩阵:用变量的相关矩阵提取因子的分析,适用于各变量度量单位不同的情况;②协方差矩阵:协方差矩阵对因子进行提取,适用于方差不等情况。

输出——①未旋转的因子解:输出未经旋转的因子假设矩阵;②碎石图:输出以因子大小序号排名为横轴,特征值为纵轴的图形,看拐点,拐点前代表大因子折线,之后代表小因子折线。

395f28f2bbc7104ceee6ec5b9f465d56.png

方法——①无:不进行旋转;②最大方差法:方差最大选择,正交旋转,是每个因子上有较高载荷,变量数目最小;③直接o的方法:直接斜交旋转,在框中输入值,默认为0,倾斜值最大;④最大四次方值法:四次最大值旋转;⑤最大平衡值法:一种平均的最大旋转;⑥Promax:斜交旋转激活kappa。

系数显示格式中,取消小系数是指,绝对值小于指定框的数值的就不会显示。

输出:相关系数矩阵。其中相关系数是横向比纵向的值,显著性检验,越显著相关性越强。

Kmo:大于0.9效果最好,大于0.7也可接受,小于0.5就不适合做因子分析。

公因子方差表:给出最初变量的共同组,提取是指你提的公因子代表了这个变量的多少信息。例如,公因子中提取了载文量76.5%的信息,被引半衰期81.6%的信息。

总方差解释:初始特征值4.864累计贡献率60.804%,提取的载荷平方和,就是还未旋转的,提取了两个公因子,最后旋转的因子共两个,第一个特征值4.450,献率百分比是55.629。

碎石图:可以看到2以后趋于平缓,拐点即为提取的因子数。

成分矩阵:未经旋转的因子载荷矩阵;旋转后的成分矩阵:公共因子1包括前六个变量,公共因子2则选择了后两个变量。

8e2d1c91c75ab76468d5981049b66f9d.gif

   图片 | 郭薯fen
   文字 | 郭薯fen
   排版 | 小洋ren

8c1b8735050a5506527911d99bba55cc.png

68170745954e9ca4d7630114ca84a47f.png

今天也是有好好长大的一天喔!
请星标pick我,我会让你心动哒~

已标记关键词 清除标记
表情包
插入表情
评论将由博主筛选后显示,对所有人可见 | 还能输入1000个字符
相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页