Logistic回归
前言:Logistic回归是一种十分常见的分类模型,是的严格来说这是一个分类模型,之所以叫做回归也是由于历史原因。不同于线性回归中对于参数的推导,我们在这里运用的方式不再是最小二乘法,而是极大似然估计。市面上Logistic回归大多都是在spss应用上,较少有针对其原理进行描述的。本文参照医学统计学的书籍对Logistic回归做一个大概的描述,希望广大读者在使用Logistic回归时能够知其然也知其所以然。下面开始这篇文章~
多重线性回归模型要求因变量是连续型的正态分布变量,且自变量与因变量呈线性关系。当因变量是分类变量,且自变量与因变量不呈线性关系时,就不能确足多重线性回归模型的适用条件。此时,处理该类资料常用Logistic回归模型。Logistic回归分析属于非线性回归,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法。
在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系。比如,研究食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。如果采用多重线性回归分析,由于因变量y为二分类变量(通常取值0或1 ),不满足正态分布和方差齐等应用条件,若强行使用线性回归分析,其预测值可能会大于1或小于,而无法解释。在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素的混杂作用,但这种经典方法有其局限性,随着混杂因素的增加,分层越来越细,致使每层内的数据越来越少,使相对危险度的估计产生困难。Logistic回归模型较好地解决了上述问题,已经成为医学研究,特别是流行病学病因研究中最常用的分析方法之一。
注:Logistic回归可以算作是一种分类算法但也可以说是线性回归的拓展。之所以还将其归于广义的线性回归是因为它的推导是利用化归的思想在试图构造一个线性模型来解释因变量。
一、 Logistic回归分析的基本原理
由于因变量“首吸飘感”为二分类变量,本例应采用loglstic回归进行分析。本节将以此为 例,说明loglstic回归分析的模型构建、分析步骤及实际应用等。
(一)Logistic回归模型参数的流行病学意义
注:这个模型是与sigmiod函数关系密切,之所以选择这个函数一个非常重要的原因是因为概率值是在0-1之间的。
(二)Logistic回归模型的分类
根据因变量为二分类或多分类,logistic回归可相应的分为二分类logistic回归和多分类 logistic回归。因变量为二分类变量时,根据设计类型的不同,可分别采用非条件logistic回归或条件logistic回归模型进行分析。非条件logistic回归分析可用于成组设计的病例对照研究或队 列研究资料,条件logistic回归分析用于配对或配比设计的病例对照研究资料。因变量为多项分类资料时,可用多项分类logistic回归模型进行分析。本节所介绍的是其中的非条件logistic回归模型。
二、 Logistic回归分析的步骤
(一)变量赋值及偏回归系数的意义
logistic回归分析对自变量的要求并不严格,它可以是二分类变量、无序分类变量、有序分 类变量或定量变量.但对自变量需进行合理赋值。对同一资料,变量采用不同的赋值方法,参数 的估计值、符号及含义都可能发生变化。因此,变量赋值合理与否,直接影响着logistic回归的效果。
1、自变量的赋值
2、因变量的赋值
因变量赋值同分类变量赋值方法,一般“阳性反应”的赋值为1 , “阴性反应”的赋值为0。 如果因变量y赋值的顺序相反,则回归系数绝对值不变,但符号相反。例如,对例16.2中的各变量的赋值情况见表16.7。
(二)参数估计
1.偏回归系数的估计常采用极大似然估计,其样本似然函数为:
根据上述原理,例16.2的参数估计及假设检验结果见表16.8 。表16.8显示了在调整了性别、年龄、首吸年龄的混杂作用后,rsl381376和rs550014两个sNP位点与“首吸飘感”的关联性。其logistic回归模型可写为(其中,rsa表示rsl381376 , rsb表示rs550014).
此模型及参数估计结果还需进一步做假设检验。
(三)模型的假设检验
logistic回归模型的假设检验也包括检验摸型和检验模型参数两个方面。
三、 Logistic回归分析的用途及应用条件
(一)用途
Logistic回归分析的主要用途有:
- 建立用多个危险因素估计某事件(或疾病)在一定时期内发生概率的Logistic回归方程,如用于探索某疾病发生的危险因素并分析其作用大小。
- 测疾病或事件发生的概率。比如在例16.2中,若某观察者的性别为女性,年龄为31岁,首吸年龄为29岁,rs381376位点发生突变,rs55ool4位点未发生突变,则根据表16.9中的参数估计结果,建立式(16.18)所示的Logistic回归模型,将该观察者的各变量取值代人模型,可得其发生“首吸飘感”的概率为0.402。
- 对样本进行判别归类。
(二)应用条件
Logistic回归分析的应用条件有:
- 因变量为二项分类或多项分类资料。
- 自变量可以是任意类型的资料,如定量资料、二分类资料、无序多分类资料或者有序分类资料等。