Logistic Regression 使用不同library系数不一样？Sklearn vs. Statsmodel

ZeroSnowy

于 2024-09-27 16:58:43 发布

阅读量207

点赞数 4

分类专栏：统计Statistics笔记 python笔记基本概念文章标签： sklearn 人工智能 python 笔记经验分享

本文链接：https://blog.csdn.net/TuringSnowy/article/details/142597861

版权

34 篇文章 0 订阅

订阅专栏

13 篇文章 0 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

I realize that for logistic regression, it has different coefficients generated by Sklearn LogisticRegression() and Statsmodel.

Why there’s the difference? Why there’s no difference between the two libraries when fitting a linear model?

(We use Statsmodel in our class. )

在比较sklearn的LogisticRegression和statsmodels的逻辑回归系数时，我们需要注意几个关键点：

目标函数不同：sklearn的LogisticRegression默认使用L2正则化，而statsmodels则不包括正则化，除非你明确添加。正则化可以影响系数的大小和模型的复杂度。
优化算法：sklearn的LogisticRegression使用的优化算法（如lbfgs、liblinear等）可能与statsmodels的算法不同，这可能导致系数估计的差异。
数值优化的收敛标准：sklearn和statsmodels在数值优化过程中可能使用不同的收敛标准，这可能导致在迭代过程中停止的点不同，从而影响最终的系数估计。
数据预处理：sklearn通常需要你手动对数据进行预处理（如标准化），而statsmodels则可能在内部进行某些预处理步骤。
截距的处理：sklearn的LogisticRegression默认包含截距，而statsmodels的逻辑回归可以通过设置fit_intercept=False来排除截距。
多分类处理：当处理多分类问题时，sklearn使用one-vs-rest（OvR）的方式，而statsmodels可能使用其他方法，如多项式逻辑回归。
输出解释：statsmodels提供了更丰富的统计输出，包括系数的置信区间、z值、p值等，而sklearn则主要关注预测准确率和系数的大小。