医学统计学-线性相关与多元线性回归

最新推荐文章于 2025-04-28 11:41:26 发布

m0_69172201

最新推荐文章于 2025-04-28 11:41:26 发布

阅读量570

点赞数

文章标签：机器学习 python 逻辑回归

本文链接：https://blog.csdn.net/m0_69172201/article/details/131362121

版权

本实验通过对含碘量与地方性甲状腺肿患病率的相关性分析，展示了线性相关性，得出两者之间存在强负相关关系。随后，通过多元线性回归分析和逐步回归方法，研究了载脂蛋白与低密度脂蛋白、高密度脂蛋白的关系，确定了最佳模型，强调了模型的统计学意义和自变量的选择重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实验七线性相关与多元线性回归

一. 实验目的

掌握线性相关和回归的数据探索
掌握相关系数的计算以及假设检验；
掌握多元线性回归和逻辑回归的适用条件、模型建立、评价、检验与因素分析；
了解逐步筛选自变量的原理。

二. 实验内容

资料的分析及数据的录入；
数据探索
线性相关分析；
多元线性回归分析和逐步回归方法。

三．实验材料与步骤

（一）课本P124计算与分析4

问题分析：

取平均含碘量为自变量X，地方性甲状腺肿的患病率作为因变量Y，两者均为连续性定量数据，根据题目要求对两个变量进行相关性分析，首先通过直方图和正态性检验观察数据分布，若呈正态则用Pearson,否则使用Spearman相关分析。

分析步骤：
1. 直方图（若直方图不好观察，可用Q-Q图/P-P图）

由X、Y的Q-Q图可知，数据并近似分布在一条直线上，可认为含碘量和患病率的数据分布呈现正态性

2．正态分布检验

正态性检验
	柯尔莫戈洛夫-斯米诺夫(V)a			夏皮洛-威尔克
	统计	自由度	显著性	统计	自由度	显著性
Y	.169	14	.200*	.884	14	.066
X	.210	14	.094	.893	14	.089
*. 这是真显著性的下限。
a. 里利氏显著性修正

本例中数据样本小于50，采用夏皮洛-威尔克检验，由结果知，X、Y的p值均大于0.05，根据α=0.05的检验水准，认为X、Y具有正态性

制作散点图

由散点图可知，X和Y之间具有线性关系

4．线性相关分析——Pearson/Spearman相关系数、相关性假设检验

相关性
		地区编号	患病率	碘含量
地区编号	皮尔逊相关性	1	-.888**	.968**
	Sig.（双尾）		.000	.000
	个案数	14	14	14
患病率	皮尔逊相关性	-.888**	1	-.914**
	Sig.（双尾）	.000		.000
	个案数	14	14	14
碘含量	皮尔逊相关性	.968**	-.914**	1
	Sig.（双尾）	.000	.000
	个案数	14	14	14
**. 在 0.01 级别（双尾），相关性显著。

由正态性检验可知，两个变量均呈正态分布，因此使用pearson相关分析方法，由结果可知，本例相关系数r = -0.914,P < 0.001 ,根据α= 0.05的检验水准，说明说明碘含量（X）与患病率（Y）之间存在很强的负线性相关关系。

（二）课本P135计算与分析2

提示：

注意问题是需要做3个多元线性回归模型（其中第3个模型使用逐步回归方法）；
向前向后逐步回归使用：“使用F的概率，进入为0.05，删除为0.10”

问题分析：

取载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C分别记为自变量X1、X2、X3、X4，低密度脂蛋白、高密度脂蛋白分别记为Y1、Y2，所有变量均为连续性定量数据，根据题目要求建立Y1和 Y2对四个自变量进行多元线性回归分析，作Y1 / Y2对四个自变量的逐步回归分析，首先通过直方图和正态性检验观察数据分布，接着进行方差分析和t检验，检验所建立模型和自变量的作用是否具有统计学意义，最后通过评价指标对三个所建立的模型进行比较评估。

分析步骤：（6是选做）

直方图（所有自变量和因变量）
散点图（所有自变量4个和因变量3个）

正态性检验
	柯尔莫戈洛夫-斯米诺夫(V)a			夏皮洛-威尔克
	统计	自由度	显著性	统计	自由度	显著性
X1	.092	30	.200*	.977	30	.748
X2	.089	30	.200*	.985	30	.942
X3	.121	30	.200*	.957	30	.264
X4	.168	30	.030	.901	30	.009
Y1	.104	30	.200*	.972	30	.595
Y2	.128	30	.200*	.951	30	.183
Y2除以Y1	.138	30	.153	.959	30	.293
*. 这是真显著性的下限。
a. 里利氏显著性修正

根据直方图和正态性检验可知各个变量除了X4以外，均呈正态性分布。

分析自变量两两之间的关系

由散点图可知，X2和X3、X4之间存在可能存在线性关系，其余自变量相互之间存在线性关系可能较小

分析每个自变量和因变量之间的关系

由散点图可知，具有较强线性关系的变量有，X1和Y2、X1和Y2/Y1、X2和Y2/Y1、X2和Y1

Pearson/Spearman相关分析——相关系数矩阵和假设检验（可以使用*来标注显著性）

分析自变量两两之间的关系

相关系数较大的自变量有X3和X2、X4之间，相关系数分别0.488、0.527，P值均小于0.05，说明具有相关关系

分析每个自变量和因变量之间的关系

相关系数较大的有X2和Y2/Y1、X2和Y1、X1和Y2/Y1、X1和Y2、X3和Y2、X3和Y2/Y1之间，相关系数分别为-0.674、0.562、0.708、0.844、-0.394、-0.372，P值均小于0.05，根据α=0.05的检验水准，说明具有相关关系

多元线性回归分析，建立三个模型

模型一：

表1-1 以Y1作为因变量各自变量的标准化系数

ANOVAa
模型		平方和	自由度	均方	F	显著性
1	回归	18530.408	4	4632.602	8.090	.000b
	残差	14316.258	25	572.650
	总计	32846.667	29
a. 因变量：Y1
b. 预测变量：(常量), X4, X1, X2, X3

表1-2 以Y1作为因变量的模型方差分析表

模型摘要
模型	R	R 方	调整后 R 方	标准估算的错误
1	.751a	.564	.494	23.930
a. 预测变量：(常量), X4, X1, X2, X3

表1-3 以Y1作为因变量建立的模型的评估结果

自变量间不存在共线性关系（VIF是容忍度的倒数，判断标准是0-10）

由表1-1结果分析可知各自变量的方差膨胀因子VIF均小于10，可认为自变量之间不存在共线性

模型是否有统计学意义——方差分析表

由表1-3 ANOVA方差分析结果可知F=8.090，P<0.001,根据α= 0.05的检验水准，表明所建立的模型有统计学意义

自变量的作用是否有统计学意义（显著）——t检验

由表1-1分析可知各自变量的回归系数的检验t值分别为1.181、4.699、-0.045、-3.119，P值分别为0.249、0.000、0.965、0.005，根据α= 0.05检验水准，说明在95%的置信水平下，斜率有统计学意义，可认为变量X2和X4与Y1之间存在线性回归关系

参数估计，建立回归方程

由表1-1可得回归方程为Y=-0.829+0.233X1+1.325X2-1.24X3-2.385X4

模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

由表1-3可知R = 0.751，R2 = 0.564，校正R2 = 0.494

（6）选作：残差分析（绘制标准化残差图，其中的正态概率图是rankit图。同时还需要画出残差图，Y轴选择：ZRESID，X轴选择: ZPRED。）

残差统计a
	最小值	最大值	平均值	标准偏差	个案数
预测值	83.41	195.04	151.67	24.678	30
残差	-78.003	45.875	.000	22.883	30
标准预测值	-2.766	1.757	.000	1.000	30
标准残差	-3.289	1.934	.000	.965	30
a. 因变量：Y1

由回归标准化残差图可知，回归标准化残差偏向于分布Y=0直线上侧，总体来看残差点并不是随机分布的，疏密对比明显，且有个别点分布在负3以外，说明数据并未完全符合线性回归分析要求，存在异方差和其他拟合不足的问题。

模型二：

表2-1 以Y2作为因变量各自变量的标准化系数

ANOVAa
模型		平方和	自由度	均方	F	显著性
1	回归	4392.581	4	1098.145	22.487	.000b
	残差	1220.886	25	48.835
	总计	5613.467	29
a. 因变量：Y2
b. 预测变量：(常量), X4, X1, X2, X3

表2-2 以Y2作为因变量的模型方差分析表

模型摘要
模型	R	R 方	调整后 R 方	标准估算的错误
1	.885a	.783	.748	6.988
a. 预测变量：(常量), X4, X1, X2, X3

表2-3 以Y2作为因变量建立的模型的评估结果

共线性诊断a

自变量间不存在共线性关系（VIF是容忍度的倒数，判断标准是0-10）

由表2-1结果分析可知各自变量的方差膨胀因子VIF均小于10，可认为自变量之间不存在共线性

模型是否有统计学意义——方差分析表

由表2-2 ANOVA方差分析结果可知F=22.487，P<0.001,根据α= 0.05的检验水准，表明所建立的模型有统计学意义

自变量的作用是否有统计学意义（显著）——t检验

由表2-1分析可知各自变量的回归系数的检验t值分别为8.385、-0.640、-0.362、-1.858，P值分别为0.000、0.528、0.720、0.075，根据α= 0.05检验水准，说明在95%的置信水平下，斜率有统计学意义，可认为变量X1与Y2之间存在线性回归关系

参数估计，建立回归方程

由表2-1可得回归方程为Y=-2、132+0.483X1-0.053X2-0.294X3-0.4.15X4

模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

由表2-3可知R = 0.884，R2 = 0.781，校正R2 = 0.746

选作：残差分析（绘制标准化残差图，其中的正态概率图是rankit图。同时还需要画出残差图，Y轴选择：ZRESID，X轴选择: ZPRED。）

残差统计a
	最小值	最大值	平均值	标准偏差	个案数
预测值	30.78	79.47	54.47	12.247	30
残差	-10.268	19.991	.000	6.601	30
标准预测值	-1.934	2.041	.000	1.000	30
标准残差	-1.501	2.922	.000	.965	30
a. 因变量：Y2

由回归标准化残差图可知，回归标准化残差偏向于分布Y=0直线下侧，总体来看残差点并不是均匀分布的，大部分集中分布在0~负1，也存在个别点分布在2-3，说明数据并未完全符合线性回归分析要求。

模型三：

表3-1 以Y2/Y1作为因变量各自变量的标准化系数

ANOVAa
模型		平方和	自由度	均方	F	显著性
1	回归	.168	1	.168	28.077	.000b
	残差	.168	28	.006
	总计	.336	29
2	回归	.269	2	.134	54.036	.000c
	残差	.067	27	.002
	总计	.336	29
3	回归	.283	3	.094	46.846	.000d
	残差	.052	26	.002
	总计	.336	29
a. 因变量：Y2除以Y1
b. 预测变量：(常量), X1
c. 预测变量：(常量), X1, X2
d. 预测变量：(常量), X1, X2, X4

表3-2 以Y2/Y1作为因变量的模型方差分析表

模型摘要d
模型	R	R 方	调整后 R 方	标准估算的错误
1	.708a	.501	.483	.07738
2	.894b	.800	.785	.04986
3	.919c	.844	.826	.04490
a. 预测变量：(常量), X1
b. 预测变量：(常量), X1, X2
c. 预测变量：(常量), X1, X2, X4
d. 因变量：Y2除以Y1

表3-3 以Y2/Y1作为因变量建立的模型的评估结果

自变量间不存在共线性关系（VIF是容忍度的倒数，判断标准是0-10）

由表3-1结果分析可知各自变量的方差膨胀因子VIF均小于10，可认为自变量之间不存在共线性

模型是否有统计学意义——方差分析表

由表3-2 ANOVA方差分析结果可知三个模型的F值分别为28.077、54.036、46.846，P值均小于0.001,根据α= 0.05的检验水准，表明所建立的模型有统计学意义

自变量的作用是否有统计学意义（显著）——t检验

由表3-1和3-3分析可知，模型3为最优模型，该模型中各自变量的回归系数的检验t值分别为7.357、-7.507、2.700，P值均小于0.05，根据α= 0.05检验水准，说明在95%的置信水平下，斜率有统计学意义，可认为所选自变量与Y2/Y1之间存在线性回归关系

参数估计，建立回归方程

由表3-1可得回归方程为Y=0.355+0.003X1-0.004X2+0.003X4

模型的拟合优度情况——相关系数R、决定系数R Square、校正的决定系数

本例一共进行了3步筛选，其中模型1仅有X1，模型2含有X1和X2，模型3含有X1、X2和X4，由表3-3可知第三个模型为最优模型，复相关系数为0.920，决定系数为0.846，校正决定系数为0.829

选作：残差分析（绘制标准化残差图，其中的正态概率图是rankit图。同时还需要画出残差图，Y轴选择：ZRESID，X轴选择: ZPRED。）

残差统计a
	最小值	最大值	平均值	标准偏差	个案数
预测值	.1871	.5271	.3719	.09885	30
残差	-.07540	.11452	.00000	.04252	30
标准预测值	-1.869	1.570	.000	1.000	30
标准残差	-1.679	2.550	.000	.947	30
a. 因变量：Y2除以Y1