Logistic回归模型

最新推荐文章于 2024-08-14 17:14:53 发布

Sky Leaf

最新推荐文章于 2024-08-14 17:14:53 发布

阅读量1w

点赞数 9

分类专栏：机器学习文章标签：机器学习分类算法

本文链接：https://blog.csdn.net/weixin_43250805/article/details/105238795

版权

机器学习专栏收录该内容

1 篇文章 1 订阅

订阅专栏

为什么会用到logistic回归模型

普通线性回归模型的一个假设条件是当自变量取值确定时，因变量服从方差不变的正态分布。而如果因变量是类别变量，则该假设条件无法满足。为了通过自变量的线性组合来预测类别因变量的取值，logistic回归模型应运而生。logistic回归模型可分为二分类和多分类模型。

二分类logistic回归模型

当因变量只有0，1两种取值时，因变量服从伯努利分布：
在这里插入图片描述
预测自变量取固定值时y的取值，实际上就是要预测自变量取固定值时y所服从的伯努利分布的p值，即y=1的概率值。因为p的取值范围为[0,1]，所以p作为因变量的函数值域应为[0,1].logistic函数符合这一要求。

logistic函数

在这里插入图片描述
函数性质：

函数取值在（0，1）内，上限p=1，下限p=0是它的两条水平渐进馅
b>0时单调递增，b<0时单调递减
x=-a/b时，p=0.5

因此利用logistic函数构建用于预测p的回归模型。

logistic回归模型

在这里插入图片描述
其他形式：

logistic回归系数的意义

1.发生比(odds)

在这里插入图片描述

2. 发生比率（odds ratio OR 或称相对风险比）

在这里插入图片描述

3. 变量回归系数的意义

当其他的解释变量保持不变时，解释变量x2每变化一个单位，即x2+1时，原来的y=1的发生比扩大exp（β2）。

在这里插入图片描述
当存在交互效应时：

logistic回归模型的参数估计与统计检验

参数估计（极大似然估计法）

似然函数

在这里插入图片描述

梯度下降法

在这里插入图片描述

统计检验

整体显著性检验

（1）-2 Log Likehood（-2LL）
在这里插入图片描述
-2LL越小，说明模型拟合得越好
（2）似然比L0/L的卡方检验
L0是解释变量均未引入回归方程前的似然函数值
L是解释变量引入回归方程后的似然函数值
H0：L0/L=1
-ln(L0/L)^2近似服从卡方分布

回归系数的显著性检验

（1）wald统计量检测
在这里插入图片描述

H0：βi=0

wald检验统计量服从自由度为1的卡方分布
wald统计量的缺点：a. 受自变量间多重共线性的影响
b. 如果回归系数绝对值较大，标准误差也会扩大，导致wald检验统计量观测值偏小，不易拒绝零假设
（2）另一种方法
当回归系数绝对值较大时，可以对比较包含该变量和不包含该变量的模型的似然比变化，通过似然比卡方检验来检验该变量的回归系数不为零是否显著。

模型预测能力评价

混淆矩阵

	Positive	Negative
Positive	TP	FN
Negative	FP	TN

简单评价指标

敏感性（sensitivity）召回率(recall)=TP/(TP+FN)
精确率（precision）=TP/（TP+FP）
准确率（accuracy）=（TP+TN）/（P+N）
特异度（specificity）=TN/(TN+FP)

ROC 曲线

真阳性率=TP/(TP+FN)
假阳性率=FP/(FP+TN)
以假阳性率为横轴，以真阳性率为纵轴，真阳性率和假阳性率会随着正例概率判定阈值的变化而变化，那么不同的阈值就会产生不同的真阳性率和假阳性率，即对应着坐标系中不同的点，将这些点连接起来就绘制好了ROC曲线。
ROC曲线下覆盖的面积越大，则模型的预测能力越高，因为面积越大说明在低阳性率的情况下真阳性率就可以达到较高水平，进一步说明正例的预测发生概率总体相对大于负例的预测发生概率。