在前一节中,小编和大家一起学习了线性回归模型的建立,在实际应用中,当因变量是分类变量时,不符合传统线性回归的要求,无法对预测值直接进行建模,因此,考虑可以改用事件的发生概率作为目标变量。
以二分类变量为例,事件发生的期望值E(y)等价于事件发生概率。我们把事件发生与否与值域在[0,1]区间的事件发生概率相联系。
1. 理论基础
1.1 在使用概率作为目标进行预测时,需要注意两点:
(1) 一般线性函数的取值在负无穷到正无穷之间,而概率取值在0到1之间。在构建线性模型时,模型并不能保证求得的所有因变量估计值都在[0,1]之间,因此,用户需要进行合适的转换,使得模型两边的取值范围一致。
(2) 概率的变化通常并不遵循线性变化,实际上概率和输入变量间往往是非线性关系。
基于以上两点问题,找到一个合适地转换函数,使得能够解决这两个问题,即logit函数。
1.2 两个概念:
(1) 比值(Odds)或者优势:指事件发生的概率与不发生的概率的比值。
(2) 优势比(OR):两个比值的比称为比值比或优势比。
1.3 检验方法
(1) 回归方程的检验:极大似然法。
(2) 回归系数的检验:似然比检验、Wald检验以及比分检验。
(