实验七 线性相关与多元线性回归
一. 实验目的
- 掌握线性相关和回归的数据探索
- 掌握相关系数的计算以及假设检验;
- 掌握多元线性回归和逻辑回归的适用条件、模型建立、评价、检验与因素分析;
- 了解逐步筛选自变量的原理。
二. 实验内容
- 资料的分析及数据的录入;
- 数据探索
- 线性相关分析;
- 多元线性回归分析和逐步回归方法。
三.实验材料与步骤
(一) 课本P124计算与分析4
问题分析:
取平均含碘量为自变量X,地方性甲状腺肿的患病率作为因变量Y,两者均为连续性定量数据,根据题目要求对两个变量进行相关性分析,首先通过直方图和正态性检验观察数据分布,若呈正态则用Pearson,否则使用Spearman相关分析。
分析步骤:
1. 直方图(若直方图不好观察,可用Q-Q图/P-P图)
由X、Y的Q-Q图可知,数据并近似分布在一条直线上,可认为含碘量和患病率的数据分布呈现正态性
2.正态分布检验
正态性检验 | ||||||
柯尔莫戈洛夫-斯米诺夫(V)a | 夏皮洛-威尔克 | |||||
统计 | 自由度 | 显著性 | 统计 | 自由度 | 显著性 | |
Y | .169 | 14 | .200* | .884 | 14 | .066 |
X | .210 | 14 | .094 | .893 | 14 | .089 |
*. 这是真显著性的下限。 | ||||||
a. 里利氏显著性修正 |
本例中数据样本小于50,采用夏皮洛-威尔克检验,由结果知,X、Y的p值均大于0.05,根据α=0.05的检验水准,认为X、Y具有正态性
- 制作散点图
由散点图可知,X和Y之间具有线性关系
4. 线性相关分析——Pearson/Spearman相关系数、相关性假设检验
相关性 | ||||
地区编号 | 患病率 | 碘含量 | ||
地区编号 | 皮尔逊相关性 | 1 | -.888** | .968** |
Sig.(双尾) | .000 | .000 | ||
个案数 | 14 | 14 | 14 | |
患病率 | 皮尔逊相关性 | -.888** | 1 | -.914** |
Sig.(双尾) | .000 | .000 | ||
个案数 | 14 | 14 | 14 | |
碘含量 | 皮尔逊相关性 | .968** | -.914** | 1 |
Sig.(双尾) | .000 | .000 | ||
个案数 | 14 | 14 | 14 | |
**. 在 0.01 级别(双尾),相关性显著。 |
由正态性检验可知,两个变量均呈正态分布,因此使用pearson相关分析方法,由结果可知,本例相关系数r = -0.914,P < 0.001 ,根据α= 0.05的检验水准,说明说明碘含量(X)与患病率(Y)之间存在很强的负线性相关关系。
(二)课本P135计算与分析2
- 提示:
- 注意问题是需要做3个多元线性回归模型(其中第3个模型使用逐步回归方法);
- 向前向后逐步回归使用:“使用F的概率,进入为0.05,删除为0.10”
- 问题分析:
取载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C分别记为自变量X1、X2、X3、X4,低密度脂蛋白、高密度脂蛋白分别记为Y1、Y2,所有变量均为连续性定量数据,根据题目要求建立Y1和 Y2对四个自变量进行多元线性回归分析,作Y1 / Y2对四个自变量的逐步回归分析,首先通过直方图和正态性检验观察数据分布,接着进行方差分析和t检验,检验所建立模型和自变量的作用是否具有统计学意义,最后通过评价指标对三个所建立的模型进行比较评估。
- 分析步骤:(6是选做)
- 直方图(所有自变量和因变量)
- 散点图(所有自变量4个和因变量3个)
正态性检验 | ||||||
柯尔莫戈洛夫-斯米诺夫(V)a | 夏皮洛-威尔克 | |||||
统计 | 自由度 | 显著性 | 统计 | 自由度 | 显著性 | |
X1 | .092 | 30 | .200* | .977 | 30 | .748 |
X2 | .089 | 30 | .200* | .985 | 30 | .942 |
X3 | .121 | 30 | .200* | .957 | 30 | .264 |
X4 | .168 | 30 | .030 | .901 | 30 | .009 |
Y1 | .104 | 30 | .200* | .972 | 30 | .595 |
Y2 | .128 | 30 | .200* | .951 | 30 | .183 |
Y2除以Y1 | .138 | 30 | .153 | .959 | 30 | .293 |
*. 这是真显著性的下限。 | ||||||
a. 里利氏显著性修正 |
根据直方图和正态性检验可知各个变量除了X4以外,均呈正态性分布。
- 分析自变量两两之间的关系
由散点图可知,X2和X3、X4之间存在可能存在线性关系,其余自变量相互之间存在线性关系可能较小
- 分析每个自变量和因变量之间的关系
由散点图可知,具有较强线性关系的变量有,X1和Y2、X1和Y2/Y1、X2和Y2/Y1、X2和Y1
- Pearson/Spearman相关分析——相关系数矩阵和假设检验(可以使用*来标注显著性)
- 分析自变量两两之间的关系
相关系数较大的自变量有X3和X2、X4之间,相关系数分别0.488、0.527,P值均小于0.05,说明具有相关关系
- 分析每个自变量和因变量之间的关系
相关系数较大的有X2和Y2/Y1、X2和Y1、X1和Y2/Y1、X1和Y2、X3和Y2、X3和Y2/Y1之间,相关系数分别为-0.674、0.562、0.708、0.844、-0.394、-0.372,P值均小于0.05,根据α=0.05的检验水准,说明具有相关关系
- 多元线性回归分析,建立三个模型
模型一:
表1-1 以Y1作为因变量各自变量的标准化系数
ANOVAa | ||||||
模型 | 平方和 | 自由度 | 均方 | F | 显著性 | |
1 | 回归 | 18530.408 | 4 | 4632.602 | 8.090 | .000b |
残差 | 14316.258 | 25 | 572.650 | |||
总计 | 32846.667 | 29 | ||||
a. 因变量:Y1 | ||||||
b. 预测变量:(常量), X4, X1, X2, X3 |
表1-2 以Y1作为因变量的模型方差分析表
模型摘要 | ||||
模型 | R | R 方 | 调整后 R 方 | 标准估算的错误 |
1 | .751a | .564 | .494 | 23.930 |
a. 预测变量:(常量), X4, X1, X2, X3 |
表1-3 以Y1作为因变量建立的模型的评估结果
- 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)
由表1-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性
- 模型是否有统计学意义——方差分析表
由表1-3 ANOVA方差分析结果可知F=8.090,P<0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义
- 自变量的作用是否有统计学意义(显著)——t检验
由表1-1分析可知各自变量的回归系数的检验t值分别为1.181、4.699、-0.045、-3.119,P值分别为0.249、0.000、0.965、0.005,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为变量X2和X4与Y1之间存在线性回归关系
- 参数估计,建立回归方程
由表1-1可得回归方程为Y=-0.829+0.233X1+1.325X2-1.24X3-2.385X4
- 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数
由表1-3可知R = 0.751,R2 = 0.564,校正R2 = 0.494
(6)选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)
残差统计a | |||||
最小值 | 最大值 | 平均值 | 标准偏差 | 个案数 | |
预测值 | 83.41 | 195.04 | 151.67 | 24.678 | 30 |
残差 | -78.003 | 45.875 | .000 | 22.883 | 30 |
标准预测值 | -2.766 | 1.757 | .000 | 1.000 | 30 |
标准残差 | -3.289 | 1.934 | .000 | .965 | 30 |
a. 因变量:Y1 |
由回归标准化残差图可知,回归标准化残差偏向于分布Y=0直线上侧,总体来看残差点并不是随机分布的,疏密对比明显,且有个别点分布在负3以外,说明数据并未完全符合线性回归分析要求,存在异方差和其他拟合不足的问题。
模型二:
表2-1 以Y2作为因变量各自变量的标准化系数
ANOVAa | ||||||
模型 | 平方和 | 自由度 | 均方 | F | 显著性 | |
1 | 回归 | 4392.581 | 4 | 1098.145 | 22.487 | .000b |
残差 | 1220.886 | 25 | 48.835 | |||
总计 | 5613.467 | 29 | ||||
a. 因变量:Y2 | ||||||
b. 预测变量:(常量), X4, X1, X2, X3 |
表2-2 以Y2作为因变量的模型方差分析表
模型摘要 | ||||
模型 | R | R 方 | 调整后 R 方 | 标准估算的错误 |
1 | .885a | .783 | .748 | 6.988 |
a. 预测变量:(常量), X4, X1, X2, X3 |
表2-3 以Y2作为因变量建立的模型的评估结果
共线性诊断a |
- 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)
由表2-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性
- 模型是否有统计学意义——方差分析表
由表2-2 ANOVA方差分析结果可知F=22.487,P<0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义
- 自变量的作用是否有统计学意义(显著)——t检验
由表2-1分析可知各自变量的回归系数的检验t值分别为8.385、-0.640、-0.362、-1.858,P值分别为0.000、0.528、0.720、0.075,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为变量X1与Y2之间存在线性回归关系
- 参数估计,建立回归方程
由表2-1可得回归方程为Y=-2、132+0.483X1-0.053X2-0.294X3-0.4.15X4
- 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数
由表2-3可知R = 0.884,R2 = 0.781,校正R2 = 0.746
- 选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)
残差统计a | |||||
最小值 | 最大值 | 平均值 | 标准偏差 | 个案数 | |
预测值 | 30.78 | 79.47 | 54.47 | 12.247 | 30 |
残差 | -10.268 | 19.991 | .000 | 6.601 | 30 |
标准预测值 | -1.934 | 2.041 | .000 | 1.000 | 30 |
标准残差 | -1.501 | 2.922 | .000 | .965 | 30 |
a. 因变量:Y2 |
由回归标准化残差图可知,回归标准化残差偏向于分布Y=0直线下侧,总体来看残差点并不是均匀分布的,大部分集中分布在0~负1,也存在个别点分布在2-3,说明数据并未完全符合线性回归分析要求。
模型三:
表3-1 以Y2/Y1作为因变量各自变量的标准化系数
ANOVAa | ||||||
模型 | 平方和 | 自由度 | 均方 | F | 显著性 | |
1 | 回归 | .168 | 1 | .168 | 28.077 | .000b |
残差 | .168 | 28 | .006 | |||
总计 | .336 | 29 | ||||
2 | 回归 | .269 | 2 | .134 | 54.036 | .000c |
残差 | .067 | 27 | .002 | |||
总计 | .336 | 29 | ||||
3 | 回归 | .283 | 3 | .094 | 46.846 | .000d |
残差 | .052 | 26 | .002 | |||
总计 | .336 | 29 | ||||
a. 因变量:Y2除以Y1 | ||||||
b. 预测变量:(常量), X1 | ||||||
c. 预测变量:(常量), X1, X2 | ||||||
d. 预测变量:(常量), X1, X2, X4 |
表3-2 以Y2/Y1作为因变量的模型方差分析表
模型摘要d | ||||
模型 | R | R 方 | 调整后 R 方 | 标准估算的错误 |
1 | .708a | .501 | .483 | .07738 |
2 | .894b | .800 | .785 | .04986 |
3 | .919c | .844 | .826 | .04490 |
a. 预测变量:(常量), X1 | ||||
b. 预测变量:(常量), X1, X2 | ||||
c. 预测变量:(常量), X1, X2, X4 | ||||
d. 因变量:Y2除以Y1 |
表3-3 以Y2/Y1作为因变量建立的模型的评估结果
- 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)
由表3-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性
- 模型是否有统计学意义——方差分析表
由表3-2 ANOVA方差分析结果可知三个模型的F值分别为28.077、54.036、46.846,P值均小于0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义
- 自变量的作用是否有统计学意义(显著)——t检验
由表3-1和3-3分析可知,模型3为最优模型,该模型中各自变量的回归系数的检验t值分别为7.357、-7.507、2.700,P值均小于0.05,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为所选自变量与Y2/Y1之间存在线性回归关系
- 参数估计,建立回归方程
由表3-1可得回归方程为Y=0.355+0.003X1-0.004X2+0.003X4
- 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数
本例一共进行了3步筛选,其中模型1仅有X1,模型2含有X1和X2,模型3含有X1、X2和X4,由表3-3可知第三个模型为最优模型,复相关系数为0.920,决定系数为0.846,校正决定系数为0.829
- 选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)
残差统计a | |||||
最小值 | 最大值 | 平均值 | 标准偏差 | 个案数 | |
预测值 | .1871 | .5271 | .3719 | .09885 | 30 |
残差 | -.07540 | .11452 | .00000 | .04252 | 30 |
标准预测值 | -1.869 | 1.570 | .000 | 1.000 | 30 |
标准残差 | -1.679 | 2.550 | .000 | .947 | 30 |
a. 因变量:Y2除以Y1 |
由回归标准化残差图可知,回归标准化残差分布于Y=0直线两侧,且位于Y=±2之间,说明数据符合线性回归分析要求,且线性关系良好。
5.评估和比较三个模型,最后结论
(1)从三个模型的评估结果来看,三个模型的决定系数分别为0.564、0.781、0.846,决定系数越大说明模型回归效果越好,可知模型3为最优模型
(2)从三个模型的残差分析结果来看,发现模型3的选择最为合适
(3)结论:作Y2 / Y1对四个自变量的逐步回归分析所建立的模型效果最优医学统计学