医学统计学-线性相关与多元线性回归

实验七 线性相关与多元线性回归

一. 实验目的

  1. 掌握线性相关和回归的数据探索
  2. 掌握相关系数的计算以及假设检验;
  3. 掌握多元线性回归和逻辑回归的适用条件、模型建立、评价、检验与因素分析;
  4. 了解逐步筛选自变量的原理。

二. 实验内容

  1. 资料的分析及数据的录入;
  2. 数据探索
  3. 线性相关分析;
  4. 多元线性回归分析和逐步回归方法。

三.实验材料与步骤

(一) 课本P124计算与分析4

问题分析:

取平均含碘量为自变量X,地方性甲状腺肿的患病率作为因变量Y,两者均为连续性定量数据,根据题目要求对两个变量进行相关性分析,首先通过直方图和正态性检验观察数据分布,若呈正态则用Pearson,否则使用Spearman相关分析。

分析步骤:
1. 直方图(若直方图不好观察,可用Q-Q图/P-P图)

由X、Y的Q-Q图可知,数据并近似分布在一条直线上,可认为含碘量和患病率的数据分布呈现正态性

2.正态分布检验

正态性检验

柯尔莫戈洛夫-斯米诺夫(V)a

夏皮洛-威尔克

统计

自由度

显著性

统计

自由度

显著性

Y

.169

14

.200*

.884

14

.066

X

.210

14

.094

.893

14

.089

*. 这是真显著性的下限。

a. 里利氏显著性修正

本例中数据样本小于50,采用夏皮洛-威尔克检验,由结果知,X、Y的p值均大于0.05,根据α=0.05的检验水准,认为X、Y具有正态性

  1. 制作散点图

由散点图可知,X和Y之间具有线性关系

4. 线性相关分析——Pearson/Spearman相关系数、相关性假设检验

相关性

地区编号

患病率

碘含量

地区编号

皮尔逊相关性

1

-.888**

.968**

Sig.(双尾)

.000

.000

个案数

14

14

14

患病率

皮尔逊相关性

-.888**

1

-.914**

Sig.(双尾)

.000

.000

个案数

14

14

14

碘含量

皮尔逊相关性

.968**

-.914**

1

Sig.(双尾)

.000

.000

个案数

14

14

14

**. 在 0.01 级别(双尾),相关性显著。

由正态性检验可知,两个变量均呈正态分布,因此使用pearson相关分析方法,由结果可知,本例相关系数r = -0.914,P < 0.001 ,根据α= 0.05的检验水准,说明说明碘含量(X)与患病率(Y)之间存在很强的负线性相关关系。

(二)课本P135计算与分析2

  • 提示:
  1. 注意问题是需要做3个多元线性回归模型(其中第3个模型使用逐步回归方法);
  2. 向前向后逐步回归使用:“使用F的概率,进入为0.05,删除为0.10”
  • 问题分析:

取载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C分别记为自变量X1、X2、X3、X4,低密度脂蛋白、高密度脂蛋白分别记为Y1、Y2,所有变量均为连续性定量数据,根据题目要求建立Y1和 Y2对四个自变量进行多元线性回归分析,作Y1 / Y2对四个自变量的逐步回归分析,首先通过直方图和正态性检验观察数据分布,接着进行方差分析和t检验,检验所建立模型和自变量的作用是否具有统计学意义,最后通过评价指标对三个所建立的模型进行比较评估。

  • 分析步骤:(6是选做)
  1. 直方图(所有自变量和因变量)
  2. 散点图(所有自变量4个和因变量3个)

正态性检验

柯尔莫戈洛夫-斯米诺夫(V)a

夏皮洛-威尔克

统计

自由度

显著性

统计

自由度

显著性

X1

.092

30

.200*

.977

30

.748

X2

.089

30

.200*

.985

30

.942

X3

.121

30

.200*

.957

30

.264

X4

.168

30

.030

.901

30

.009

Y1

.104

30

.200*

.972

30

.595

Y2

.128

30

.200*

.951

30

.183

Y2除以Y1

.138

30

.153

.959

30

.293

*. 这是真显著性的下限。

a. 里利氏显著性修正

根据直方图和正态性检验可知各个变量除了X4以外,均呈正态性分布。

  1. 分析自变量两两之间的关系

由散点图可知,X2和X3、X4之间存在可能存在线性关系,其余自变量相互之间存在线性关系可能较小

  1. 分析每个自变量和因变量之间的关系

由散点图可知,具有较强线性关系的变量有,X1和Y2、X1和Y2/Y1、X2和Y2/Y1、X2和Y1

  1. Pearson/Spearman相关分析——相关系数矩阵和假设检验(可以使用*来标注显著性)

  1. 分析自变量两两之间的关系

相关系数较大的自变量有X3和X2、X4之间,相关系数分别0.488、0.527,P值均小于0.05,说明具有相关关系

  1. 分析每个自变量和因变量之间的关系

相关系数较大的有X2和Y2/Y1、X2和Y1、X1和Y2/Y1、X1和Y2、X3和Y2、X3和Y2/Y1之间,相关系数分别为-0.674、0.562、0.708、0.844、-0.394、-0.372,P值均小于0.05,根据α=0.05的检验水准,说明具有相关关系

  1. 多元线性回归分析,建立三个模型

模型一:

表1-1 以Y1作为因变量各自变量的标准化系数

ANOVAa

模型

平方和

自由度

均方

F

显著性

1

回归

18530.408

4

4632.602

8.090

.000b

残差

14316.258

25

572.650

总计

32846.667

29

a. 因变量:Y1

b. 预测变量:(常量), X4, X1, X2, X3

表1-2 以Y1作为因变量的模型方差分析表

模型摘要

模型

R

R

调整后 R 方

标准估算的错误

1

.751a

.564

.494

23.930

a. 预测变量:(常量), X4, X1, X2, X3

表1-3 以Y1作为因变量建立的模型的评估结果

  1. 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)

由表1-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性

  1. 模型是否有统计学意义——方差分析表

由表1-3 ANOVA方差分析结果可知F=8.090,P<0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义

  1. 自变量的作用是否有统计学意义(显著)——t检验

由表1-1分析可知各自变量的回归系数的检验t值分别为1.181、4.699、-0.045、-3.119,P值分别为0.249、0.000、0.965、0.005,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为变量X2和X4与Y1之间存在线性回归关系

  1. 参数估计,建立回归方程

由表1-1可得回归方程为Y=-0.829+0.233X1+1.325X2-1.24X3-2.385X4

  1. 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

由表1-3可知R = 0.751,R2 = 0.564,校正R2 = 0.494

(6)选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)

残差统计a

最小值

最大值

平均值

标准偏差

个案数

预测值

83.41

195.04

151.67

24.678

30

残差

-78.003

45.875

.000

22.883

30

标准预测值

-2.766

1.757

.000

1.000

30

标准残差

-3.289

1.934

.000

.965

30

a. 因变量:Y1

由回归标准化残差图可知,回归标准化残差偏向于分布Y=0直线上侧,总体来看残差点并不是随机分布的,疏密对比明显,且有个别点分布在负3以外,说明数据并未完全符合线性回归分析要求,存在异方差和其他拟合不足的问题。

模型二:

表2-1 以Y2作为因变量各自变量的标准化系数

ANOVAa

模型

平方和

自由度

均方

F

显著性

1

回归

4392.581

4

1098.145

22.487

.000b

残差

1220.886

25

48.835

总计

5613.467

29

a. 因变量:Y2

b. 预测变量:(常量), X4, X1, X2, X3

表2-2 以Y2作为因变量的模型方差分析表

模型摘要

模型

R

R

调整后 R 方

标准估算的错误

1

.885a

.783

.748

6.988

a. 预测变量:(常量), X4, X1, X2, X3

表2-3 以Y2作为因变量建立的模型的评估结果

共线性诊断a

  1. 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)

由表2-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性

  1. 模型是否有统计学意义——方差分析表

由表2-2 ANOVA方差分析结果可知F=22.487,P<0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义

  1. 自变量的作用是否有统计学意义(显著)——t检验

由表2-1分析可知各自变量的回归系数的检验t值分别为8.385、-0.640、-0.362、-1.858,P值分别为0.000、0.528、0.720、0.075,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为变量X1与Y2之间存在线性回归关系

  1. 参数估计,建立回归方程

由表2-1可得回归方程为Y=-2、132+0.483X1-0.053X2-0.294X3-0.4.15X4

  1. 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

由表2-3可知R = 0.884,R2 = 0.781,校正R2 = 0.746

  1. 选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)

残差统计a

最小值

最大值

平均值

标准偏差

个案数

预测值

30.78

79.47

54.47

12.247

30

残差

-10.268

19.991

.000

6.601

30

标准预测值

-1.934

2.041

.000

1.000

30

标准残差

-1.501

2.922

.000

.965

30

a. 因变量:Y2

由回归标准化残差图可知,回归标准化残差偏向于分布Y=0直线下侧,总体来看残差点并不是均匀分布的,大部分集中分布在0~负1,也存在个别点分布在2-3,说明数据并未完全符合线性回归分析要求。

模型三:

表3-1 以Y2/Y1作为因变量各自变量的标准化系数

ANOVAa

模型

平方和

自由度

均方

F

显著性

1

回归

.168

1

.168

28.077

.000b

残差

.168

28

.006

总计

.336

29

2

回归

.269

2

.134

54.036

.000c

残差

.067

27

.002

总计

.336

29

3

回归

.283

3

.094

46.846

.000d

残差

.052

26

.002

总计

.336

29

a. 因变量:Y2除以Y1

b. 预测变量:(常量), X1

c. 预测变量:(常量), X1, X2

d. 预测变量:(常量), X1, X2, X4

表3-2 以Y2/Y1作为因变量的模型方差分析表

模型摘要d

模型

R

R

调整后 R 方

标准估算的错误

1

.708a

.501

.483

.07738

2

.894b

.800

.785

.04986

3

.919c

.844

.826

.04490

a. 预测变量:(常量), X1

b. 预测变量:(常量), X1, X2

c. 预测变量:(常量), X1, X2, X4

d. 因变量:Y2除以Y1

表3-3 以Y2/Y1作为因变量建立的模型的评估结果

  1. 自变量间不存在共线性关系(VIF是容忍度的倒数,判断标准是0-10)

由表3-1结果分析可知各自变量的方差膨胀因子VIF均小于10,可认为自变量之间不存在共线性

  1. 模型是否有统计学意义——方差分析表

由表3-2 ANOVA方差分析结果可知三个模型的F值分别为28.077、54.036、46.846,P值均小于0.001,根据α= 0.05的检验水准,表明所建立的模型有统计学意义

  1. 自变量的作用是否有统计学意义(显著)——t检验

由表3-1和3-3分析可知,模型3为最优模型,该模型中各自变量的回归系数的检验t值分别为7.357、-7.507、2.700,P值均小于0.05,根据α= 0.05检验水准,说明在95%的置信水平下,斜率有统计学意义,可认为所选自变量与Y2/Y1之间存在线性回归关系

  1. 参数估计,建立回归方程

由表3-1可得回归方程为Y=0.355+0.003X1-0.004X2+0.003X4

  1. 模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

本例一共进行了3步筛选,其中模型1仅有X1,模型2含有X1和X2,模型3含有X1、X2和X4,由表3-3可知第三个模型为最优模型,复相关系数为0.920,决定系数为0.846,校正决定系数为0.829

  1. 选作:残差分析(绘制标准化残差图,其中的正态概率图是rankit图。同时还需要画出残差图,Y轴选择:ZRESID,X轴选择: ZPRED。)

残差统计a

最小值

最大值

平均值

标准偏差

个案数

预测值

.1871

.5271

.3719

.09885

30

残差

-.07540

.11452

.00000

.04252

30

标准预测值

-1.869

1.570

.000

1.000

30

标准残差

-1.679

2.550

.000

.947

30

a. 因变量:Y2除以Y1

由回归标准化残差图可知,回归标准化残差分布于Y=0直线两侧,且位于Y=±2之间,说明数据符合线性回归分析要求,且线性关系良好。

5.评估和比较三个模型,最后结论

(1)从三个模型的评估结果来看,三个模型的决定系数分别为0.564、0.781、0.846,决定系数越大说明模型回归效果越好,可知模型3为最优模型

(2)从三个模型的残差分析结果来看,发现模型3的选择最为合适

(3)结论:作Y2 / Y1对四个自变量的逐步回归分析所建立的模型效果最优医学统计学

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
一元线性回归和多元线性回归统计学中常用的回归分析方法。 一元线性回归是指只有一个自变量和一个因变量的线性关系。其数学模型可以表示为 y = β0 + β1x + ε,其中 y 表示因变量,x 表示自变量,β0 和 β1 表示回归方程的截距和斜率,ε 表示误差项。一元线性回归的目标是通过最小化误差项来拟合出最优的回归方程,进而进行预测和分析。常见的一元线性回归方法有最小二乘法和梯度下降法。 多元线性回归是指有多个自变量和一个因变量之间的线性关系。其数学模型可以表示为 y = β0 + β1x1 + β2x2 + ... + βnxn + ε,其中 y 表示因变量,x1、x2、...、xn 表示自变量,β0、β1、β2、...、βn 表示回归方程的截距和各个自变量的系数,ε 表示误差项。多元线性回归的目标是通过最小化误差项来拟合出最优的回归方程,进而进行预测和分析。常见的多元线性回归方法有最小二乘法和梯度下降法。 相比一元线性回归,多元线性回归可以考虑多个自变量对因变量的影响,更加适用于实际问题的建模和预测。然而,多元线性回归也面临变量选择、多重共线性等问题,需要注意解释和优化模型的复杂性。 综上所述,一元线性回归和多元线性回归是常用的回归分析方法,用于建立自变量和因变量之间的线性关系模型,以进行预测和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值