![91cad4b3a7102dc52f7a56173c29329e.png](https://i-blog.csdnimg.cn/blog_migrate/ca3a1d898c47a0b529e36e3231f500f6.jpeg)
![830b926da2060396d977ac05a658672a.png](https://i-blog.csdnimg.cn/blog_migrate/9a2b8d301f7acba4763a1a0bd1d4750b.png)
![a80048fca516d276614ee077373de71e.gif](https://i-blog.csdnimg.cn/blog_migrate/f93e5f0f57cb1288af896579e8100316.gif)
SPSS学习之旅——课程笔记(三)
回归分析
一、回归分析与相关分析的异同
同:都是研究现象之间存在的相互关联关系的方法。
异:①回归分析区别自变量和因变量,相关分析不区分;②回归分析中,因变量是随机变量,自变量是非随机变量。相关分析都是随机变量;③回归分析是通过数学模型和公式来表现现象之间相关的具体形式,相关分析只是表明现象是否相关,无法指出具体形式。
二、线性回归的分析过程
确定两种或两种以上的变量之间的因果关系,建立回归关系并根据实测数据求解模型的各个参数后,评价回归模型是否能很好的拟合实测数据,预测因变量。
三、回归分析的分类
①按自变量多少可分为:一元和多元回归分析
②按自变量和因变量之间的关系类型也可分为:线性回归分析和非线性回归分析
③交叉组合:一元线性回归、多元线性回归
四、线性回归的原理
观测值找出线性回归的数学模型,通过数学模型得到线性方程,再通过最小二乘估计得到线性方程的系数,最后进行检验,包括相关系数检验、f检验、t检验。目的是检验自变量和因变量是否存在线性关系,回归效果是否显著。还会对模型假设进行检验。
9.1线性回归
操作步骤:分析-回归-线性-将想要分析的自变量(可选多个,上一页下一页可分组)和因变量选入-选择合适的方法和筛选条件(将某变量选入选择变量,再设定规则,只有符合规则的才可进入回归分析-选择个案标签(即顺序)与wls权重(即权重变量)-选择需要的统计、绘图
方法中输入是指自变量全部选入回归模型。①逐步:选择对因变量贡献最大,并满足判断条件的自变量回归方程,然后将模型中复核剔除条件的数据变量移出模型。重复测量直到没有变量被引入或剔除;②删除:建立全模型,根据剩余条件剔除部分变量;③后退:建立全模型,根据选项框的设定条件,每次将一个不符合条件的变量从模型中剔除,反复至没有模型被剔除;④前进:从自变量开始,根据判定条件,每次将最符合条件的自变量引入模型,直到所有复核判定条件的自变量都引入模型。第一个引入的变量和模型应该是最不相关的。
统计对话框中回归系数选项栏——①估计:输出回归系数的标准化的回归系数、回归系数的t检验及双侧检验的显著性概率;②误差条形图的表征:即置信区间;③协方差矩阵:输出回归系数的协方差矩阵和相关系数阵。
残差选项框——①个案诊断:可输出离群值,可设置判定标准。当输入3时就是,残差超过3倍的标准差时就会被判定为离群值。所有个案即输出所有观测值的残差。右侧的R方变化输出模型中引入或剔除一个自变量时R方的改变量;②描述性:输出描述统计量包括均数、标准差、相关系数矩阵;③部分相关和偏相关性:因变量和某个自变量,当已移除其他自变量对该自变量的线性效应之后,因变量与该自变量的相关性。偏相关是对两个变量由于他们与其他变量之间相互关联引起的相关性之后,这两个变量之间剩余的相关性;④共线性诊断:由于一个自变量是其他自变量的线性函数时,所引起的共线性是不被期望的,勾选此项可得出共线性值的结果,包括特征根、条件指数、方差、方差因子等。
左侧从上至下:*ZPRED:因变量;标准化的预测值;标准化残差;剔除残差;修正后的预测值;学生化残差;学生化剔除残差。(左侧内容可选入右侧的散点1 的1)
对学生化剔除残差选入y轴,因变量选入x轴——单击下一页——第二对将标准化的预测值选入y轴,因变量选入x轴。
产生所有部分图是输出每个自变量的残差相对于因变量残差的分布图(要求至少有两个自变量)。
预测值——①调节:调整的预测值,当观测值排除在回归方程之外时得到的回归方程对观测值的预测值;②平均值预测值:预测值的均值标准物。对于自变量具有相同值的个案对应的因变量平均值标准差的估计。
距离——①mahalanotis:自变量个案值与所有个案平均值的距离。值过大时表明该个案自变量取值有异常;②Cook距离:把一个个案从计算回归值,回归系数样本去除时,所有个案残差变化的大小,距离越大,表示回归统计排除的个案对回归系数的影响越大;③杠杆值:用于测量单个观测对拟合效果的影响程度,取值0-(n-1)/n。0时表示此观测对拟合无影响,取值越大影响越大。
预测区间——平均值是指平均预测响应的预测区间的下限和上限,单值是单个个案的因变量预测区间的下限和上限。
残差(因变量实际值-按回归方程预测的值)——①学生化的残差:残差/残差标准化的估计值;②删除:个案被排除时,个案的残差,即观测值与调整观测值之差;③学生化已删除:删除残差/个案的标准物。
影响统计——①Dfbeta:删除个案回归系数的变化值;②Dfit:删除个案产生预测值的变化值;③协方差比率:删除个案后协方差矩阵与全部观测量的协方差矩阵的一个比值,取值越接近1说明影响越小。
输出:anova表显著性,如果<0.05就拒绝零假设(回归系数都为0)。观察四种模型回归平方和如果占总计平方和的数值的最大部分说明拟合效果较好。
系数表根据各模型非标准化系数可推算出式子。
排除的变量表中可从偏相关列分析得出,除了被排除的因素与因变量相关性最高的自变量(数值越大越高)。
9.2曲线估计
研究时不能马上确定一种模型时可以考虑使用曲线估计,可以帮助我们找到适合的模型。
要求:自变量因变量都是数值型的连续变量,如果自变量是时间刻度那么估计过程中将自动生成时间变量,同时因变量也是以时间间隔为刻度的变量时时间间隔和单位应当是完全相同的。
操作步骤:分析-回归-曲线估计-分别选入因变量/自变量/个案标签和对应的模型进行曲线估计-完善其他按钮-输出