老饼|机器学习 (bbbdata.com)
1逻辑回归模型
1.1与线性回归模型的区别
• 线性回归模型的过程:
找出一个函数能够拟合自变量x与因变量y之间的线性关系,预测新数据x的y值。
先决条件是所有的变量都是连续变量,随着自变量x的增加,因变量y也会增加。
1.2逻辑回归模型详解
当因变量为离散变量时如何更好的拟合出x与y的关系?
1.2.1离散变量转为连续变量
1.2.2预测分类
1.2.3参数估计
1.3模型实现
逻辑回归模型不是对Y进行建模,而是对Y=1进行建模
代码实现
logit=sm.Logit(y_train,x_train)
result=logit.fit()
result.summary()
结果解读
Deviance Residuals:偏差残差统计量。
在理想情况下服从正态分布,普通最小二乘法在数学上保证产生均值为0的残差。
在此例中,中位数的符号为负(-0.01464),表明向左偏移,中位数的大小表明偏斜的程度。
第一个四分位数(1Q)和第三个四分位数(3Q)为钟形分布的幅度。在这种情况下,3Q有较大的幅度(0.14116+|-0.14907|)表明向右倾斜。
最大和最小残差用来检验数据中产生较大残差的离群值。
Coefficients:系数。
如果一个变量的系数为0,那么这个变量是没有意义的,它对模型毫无贡献。
这里的系数只是估计,不会真正为0,那么从统计的角度而言,真正的系数为0的可能性是多大?这就依赖于z统计量(z value)和p值(Pr(>|t|))。
(Intercept)的Estimate ---- 公式中的b
vyl、hp、wt的Estimate ----公式中的系数
Pr(>|z|)—p-value:P值。概率p值估计了系数不显著的可能性,越小越好。如果p值很大,说明不显著的可能性很高。一般情况下如果p值远小于于显著水平α=0.05(可更换显著性水平的值)
Std.Error是回归系数的标准误差
Null deviance:无效偏差(零偏差); Residual deviance:剩余偏差 ;无效偏差和剩余偏差之间的差异越大越好
AIC:评价模型拟合的重要指标; AIC越低越好
使用 Statsmodels 的逻辑回归 | 码农参考 (verytoolz.com)