算法概念
在许多社会经济问题中,所研究的因变量往往只有两个可能的结果,这样的结果可以用虚拟变量来表示,虚拟变量的取值可取0和1。
针对0-1型的因变量,我们对回归模型应该做下面的改进。
首先:因变量只取0,1两个离散变量,不适于直接作为回归模型中的因变量,我们注意到因变量的期望值 E(Y) = P(Y=1) = p 因此可以用 Y=1 的概率来代替Y本身作为因变量。
其次概率的取值应该在0,1之间,我们可以对 p 进行一种变换(Logit变换)
使得 Logit(p) 与自变量之间存在线性相关关系,经过变换得到的模型也解决了概率预测值在[0,1]之外的缺陷。以 Logit(p) 为目标变量相应的回归模型称为逻辑回归模型。
算法原理
为了更清楚的展示二值逻辑回归的算法过程。我们定义以下指标:
代表自变量,P(x)表示因变量取值为‘真’的概率,对P(x)做 Logit 变换:
建立 与 的线性函数,即:
或
我们称上述两式为线性Logistic 回归模型或简称为Logistic模型。
建立模型后,我们的任务是利用观测数据对模型中的参数进行估计。