使用Minitab进行逻辑回归分析
1 逻辑回归概览
逻辑回归和最小平方回归都是研究一个响应变量和一或多个预测器之间的关系,它们之间的区别是逻辑回归技术用于类别响应变量,而线形回归技术用于连续响应变量。
Minitab提供了三种逻辑回归程序,你可以使用它们估计一或多个预测器与一个类别响应变量之间的关系,如下表所示:
变量类别 |
类别数目 |
特征 |
示例 |
二元 |
2 |
两水平 |
成功,失败;是,否 |
顺序 |
3或更多 |
水平是自然顺序关系 |
无,轻微,严重;精美,中等,粗糙 |
名义 |
3或更多 |
水平非自然顺序关系 |
绿,黑,红,黄;晴,雨,多云 |
逻辑回归和最小二乘法都在模型中进行参数估计以使模型最优,最小平方回归依据误差平方和最小的原理估计参数,而逻辑回归使用迭代重加权最小二乘(IRLS——Iterative Reweighted Least Squares)算法获取最大可能性来估计参数。
1.1 指定模型:
逻辑回归程序可以构造下列模型:
? 超过9个因子以及超过50个协变量(covariates)
? 交叉和嵌套因子
? 协变量彼此交叉或与因子交叉,或与within因子嵌套
模型的连续预测器与协变量或类别预测器类似(Model continuous predictors as covariates and categorical predictors as factors),下面是一些例子,其中A是因子,X是协变量。
模型项:
A X A*X |
协变量与因子交叉的全因子模型 |
A | X |
an alternative way to specify the previous model |
A X X*X |
协变量与自身交叉,出现平方项 |
A X(A) |
协变量嵌套因子 |
逻辑回归模型是Minitab中比一般线性回归(GLM)更一般的模型,任何可以使用GLM建模的情形也可以使用逻辑回归构建。为了更一般的讨论指定模型,参见“Specifying the Model Terms”与“Specifying Reduced Models”。在逻辑回归命令中,minitab假定任何模型中的任何变量都是协变量,除非它被指定为因子。与之相比,GLM假定模型的任何变量都是因子,除非它被指定为协变量。
逻辑回归模型是Minitab中比一般线性回归(GLM)更一般的模型,任何可以使用GLM命令建模的情形也可以使用逻辑回归命令构建,参见“Specifying the Model”。在逻辑回归命令中,minitab假定任何模型中的任何变量都是协变量,除非它被指定为因子,确保在主对话框中指定那些预测器是因子。在一般线性回归模型中,minitab假定模型的任何变量都是因子,除非它被指定为协变量。
模型约束
在minitab中逻辑回归模型与GLM模型一样有如下约束:
? 必须有足够的数据来估计模型的所有项,因此模型是满秩的。Minitab会自动判断你的模型是否满秩并显示相关信息。在大部分案例中,从模型中排除一些不重要的高阶交互项可以解决问题。
? 模型必须是分层的,在一个层次模型(hierarchical model)中,如果包括一个交互项,所有的低阶交互与组成交互项的主效应必须出现在模型中。
1.2 因子变量与参考水平
1.2.1 因子的参考水平
Minitab需要指定一个因子水平作为参考水平,这意味着估计系数的解释与此水平相关。Minitab基于数据类型指定参考水平
? 数值型因子,参考水平是数值最小的水平
? 日期/时间型因子,参考水平是日期/时间最早的因子
? 文本型因子,参考水平是依字母顺序最靠前的因子
你可以在选型子对话框中更改缺省参考水平。
如果你已经定义了文本型因子的顺序,上面的缺省规则不再适用。Minitab指定你定义顺序的第一个值作为参考水平。参见“Ordering Text Categories”。
逻辑回归为模型的每一个因子创建了一套设计变量,如果有k个水平,则有k-1个设计变量,参考水平被编码为0。下面是缺省编码表的两个例子:
A因子有4水平(1 2 3 4,参考水平是1) |
|||
|
A1 |
A2 |
A3 |
1 |
0 |
0 |
0 |
2 |
1 |
0 |
0 |
3 |
0 |
1 |
0 |
4 |
0 |
0 |
1 |
B |