注:本文是我和夏文俊同学共同撰写的
现考虑二值响应变量
,比如是否购车,是否点击,是否患病等等,而
是相应的自变量或者称特征。现希望构建一个模型用于描述
和
的关系,并对
进行预测。
线性模型可以吗?
我们首先想到的是构建线性模型。形式如下:
对于线性模型,可采用最小二乘进行估计。 但这样的模型和估计方法是否合理呢?
采用线性模型对离散变量进行建模,往往存在以下问题:在模型左边
只取两个值,而右边
的取值范围在整个实数轴;
若上述线性模型成立,则成功概率
是
的线性函数。但很多时候成功概率并不是自变量的线性函数。对于是否购车这一决策,当一个人的收入很低或者很高时,改动收入的取值(比如这个人某个月多收入了两千元)并不会对购车产生很大的影响。但对于一个收入水平中等的人来讲,某个月多收入两千元可能会较大地影响其购车行为。
故对于二值变量,我们一般不采用线性模型来进行建模。那么如何处理呢?
Logistic回归模型
注意到:
的取值范围在整个实数轴,而
取值范围在(0,1)。我们希望通过某种变换,使得模型两边的取值范围一致。
可考虑如下变换过程:
取值在
,进一步
取值则在整个实数轴。从而可以令:
这被