常用多重回归模型-
讲座笔记
多变量回归模型概述
点击“蓝字”关注我们
一、为什么选择使用多变量回归分析?
在医学研究中,经常要确定研究因素与疾病结果间的关联,因果关系确定是复杂的,对于慢性病目前普遍接受的病因理论是一果多因论。探讨致病因素的独立作用、联合作用以及他们的作用机制是病因研究的重要内容,其中,多变量回归分析起到了非常重要的作用。因为有混杂因素的存在,在分析因素与结果变量间的关联时,需要采用多变量分析技术,在控制多个混杂因素的影响后来阐述因素与疾病结果间的关联。
二、 常用的多变量回归分析
方法及选择
目前,常用的多变量回归分析包括多重线性回归、logistic回归、Cox比例风险回归。“多重 ”是指多个自变量,“多元”是指多个因变量,在使用时注意区分这两个术语。
*对于常用多变量回归模型的选择往往是根据结局变量,分三种情况:
1、结局变量为连续变量(血压、胆固醇、肺活量)选用多重线性回归,如在一现况调查中,要探讨性别、年龄、胆固醇、BMI、腰围与血压的关联,可使用多重线性回归;
2、结局变量为二分类变量(糖尿病:是/否;肝癌:是/否)选用logistic回归;
3、生存分析资料,结果变量为二分类,且有明确的生存时间,此时使用Cox比例风险回归。
常用多变量回归模型的的自变量:
1、多变量回归分析的自变量可以为连续变量(年龄、收入、身高),分类变量(职业、血型、婚姻状况)和/或等级变量。
2、根据变量类型和专业要求确定自变量以何种形式纳入模型,分类变量和连续型变量纳入模型的方式不同:
·连续型变量可以直接纳入模型,也可以处理成分类变量后按照分类变量的形式纳入模型;
·分类变量的形式可以以哑变量的形式纳入模型
三、 多变量回归分析步骤及
自变量筛选策略
(点击看大图)
(一)回归方法的选择
通常情况下的多变量回归分析,据因变量的类型确定分析方法,如前所述。
(二)确定自变量纳入模型的形式
自变量有三种类型:连续变量、分类变量和等级变量。
拟合前:在拟合模型前,对每个自变量进行统计描述。连续变量描述其集中趋势和离散趋势,进行正态性检验,如果资料符合正态分布,用均数、标准差、变异系数等指标描述其集中趋势和离散趋势;如资料为偏态,用中位数、四分位数间距和极差描述。分类变量描述其频数、频数百分比、累积频数和累计频数百分比等指标。根据资料的特点,等级资料可按定量或定性资料进行统计描述。
建立模型时:
连续变量可以原变量纳入模型或以分组线性纳入模型,如年龄可直接纳入模型或将年龄分为几个年龄组,以分组线性的方式纳入模型,但这两种形式都要满足与因变量(变换的因变量)有线性关系的假设。
分类变量必须以哑变量的方式纳入模型;
等级变量可以分组线性或哑变量的方式纳入模型,如以分组线性纳入模型,其也要满足与因变(变换的因变量)有线性关系的假设。
(三)模型应用条件检验
1.拟合多变量回归要对模型应用条件进行检验;
2.多重线性回归要满足线性、独立、正态和方差齐性;
3.logistic回归要满足独立和线性的要求:独立指因变量间独立,线性指连续自变量与ln[P/(1-P)]为线性关系;
4.Cox比例风险模型满足比例风险的假设。
(四)单因素分析
将每个自变量与因变量的关系进行单因素分析,可了解因变量的影响因素。通常情况下选取在单因素分析中有统计学意义的变量进行多因素分析。有些时候,如果认为某个或某些变量很重要,其致病的生物学意义清楚或以前的研究认为是危险因素,即使在单因素分析中无统计学意义,也可作为协变量纳入模型。模型纳入无统计学意义的变量可造成模型的拟合效果不好,因此模型纳入无统计学意义的自变量不能太多。
(五)多因素分析
自变量的筛选策略。一般采取三种策略:
1.关注研究变量的策略:这种策略是有明确的要关注的研究因素,如某一新的危险因素,单因素分析之后,将关注的因素加上要控制的混杂因素一起纳入模型。这里感兴趣的是研究因素,检验研究因素的统计学意义,其他变量是调整
变量,其统计学意义不是我们关注的。
2.逐步回归选择法:逐步回归多用于变量的筛选,开始时模型中无任何自变量,然后按自变量对因变量的贡献大小依次将其引入方程。每引入一个变量,对已在模型里的变量进行逐个检验,如果无统计学意义时,将其剔除。每一次引入或剔除都要进行统计学检验,以保证之前模型中所有变量都有统计学意义。反复进行这个过程,直到没有统计学意义的变量引入,模型中也没有不具有统计学意义的变量为止。
3.最佳模型组合筛选法:单因素分析确定有8个因素要进行多变量分析,先以关注变量与其他7个变量分别组成有2个自变量的7个回归模型,按模型的拟合优度判断出一个最佳模型;以有2个自变量的最佳回归模型与其他6个变量分别组成有3个自变量的6个回归模型,按模型的拟合优度判断出一个最佳模型;依次进行下去,直到没有统计学意义的变量进入模型为止。这里需要指出的是,不但考虑拟合优度判断模型的拟合好坏,更重要的是在进行模型组合时,考虑变量的专业意义。最后可以将各种最佳模型组合结果都呈现出来,详细观察研究因素是如何受协变量的影响。
(六)模型诊断与评价
按上述步骤建立起来的模型为初步模型,还不清楚这个模型是否较好地揭示了自变量与因变量之间的关系,以及是否符合实际情况,因此须对模型进行诊与评价。模型诊断与评价包括统计学和专业评价。根据拟合模型提供的统计学指标评价模型的拟合优度,如模型拟合优度不佳,需要考虑数据质量是否存在问题,或数据是否存在异常点、多重共线性等问题。如果自变量不足以解释因变量的变异时,还需要考虑选用的模型是否合适,是否存在交互作用等问题。专业评价指拟合的模型要符合实际和专业知识,统计中允许多个模型的存在,因为很多疾病的机制不清,可能存在多种解释。能够被专业知识合理解释的模型才是一个好的模型。
(七)修改模型和最终确定模型
得到统计学有意义和专业上能解释的模型,实为修改模型的过程。在这个过程中,可以加入交互作用项,以增加模型的拟合优度。
小结
多变量回归模型分析在应用时需注意以下几点:
在分析时注意离群点、高杠杆点和强影响点对模型的影响,要进行回归诊断,将其对结果的影响降到最小;
在用模型进行预测时注意变量的取值范围,取值范围一定要在拟合模型的自变量取值范围之内;
有些回归要求连续自变量与因变量(转换的因变量)呈线性关系,如果不满足线性关系,可改用哑变量拟合模型或采用数据转换满足线性条件。
大话统计
文稿:Aachen
编辑:drr
我们是由北京协和医学院流行病与卫生统计学专业及临床专业硕博研究生团体创建的一个创业小团体,团体成员的专业背景非常丰富,除了包括流行病与卫生统计学人才外、还包括临床各专业人才等。欢迎您的留言和分享!