Logit模型的理解首先要区分理解 概率(probability)、发生比/几率(odds)、发生比之比/优势比(odds ratio)之间的区别。
设想有一个二分变量Y记录了人们对一项决议的意见,Y=1表示支持某项决议,Y=0表示反对这项决议,对于人群总体来说,Y的均值用 μ 表示, μ 值就是支持的人占总人数的比例,也就是支持该决议的概率 P,而发生比 odds = P/(1-P),其含义是支持该决议的概率是反对该决议的倍数,odds=1时,支持和反对的概率相等,概率也可以由发生比反推得到。odds ratio 则指的是发生比之比,OR =[P1/(1-P1)]/[P2/(1-P2)]。logistic回归的结果一般用发生比 odds 来解释。
Logistic 模型的一般形式是:logit(p) = α+β1*X1+β2*X2+β3*X3+.....+βk*Xk,描述了Y的对数发生比随X的取值变化而变化。这与传统的线性回归模型的形式很像,但是又存在着重要的差别。
直观地理解这种差异:将两种模型都视为广义线性模型的特殊形式。广义线性模型由三个部分组成:随机部分、系统部分和连接部分。
随机部分指的是变量Y以及Y的概率分布,传统线性模型Y是连续变量并假设其服从正态分布。在经典logistic回归中,Y是一个二分变量并服从二项式分布。
系统部分指的是解释变量以及这些解释变量如何组合在一起构成了解释方程,在传统线性模型和logistic回归中都是这样:α+β1*X1+β2*X2+β3*X3+.....+βk*Xk,这个表达通常被称为线性预测(linear predictor)ÿ