sklearn-逻辑回归-solver_multi_class入参与class_weight入参

Zerol_Yan

于 2024-09-09 16:41:42 发布

阅读量718

点赞数 13

文章标签： sklearn 逻辑回归大数据机器学习

本文链接：https://blog.csdn.net/Zerol_Yan/article/details/142031819

版权

solver_multi_class

sklearn 提供了多种可以使用逻辑回归处理分类问题的选项。
比如可以把某种分类类型看做1，其余的分类类型都是0，和“数据预处理”中的二分类化的思维是类似的，这种方法被称为“一对多”（One-vs-rest），简称 OvR, 在 sklearn 中表示为 "ovr"。
比如可以把好几个分类类型划分为1，剩下的分类类型划为0，这是一种“多对多”（Many-vs-Many）的方法，简称 MvM, 在 sklearn 中表示为 "multinomial"。
以上两种方式，在 sklearn 中，使用参数 multi_class 来告诉模型，我们的预测标签是什么样的类型。每种方式都配合 L1 或 L2 正则项来使用。

multi_class

输入 "ovr","multinomial","auto"来告知模型，我们要处理的分类问题的类型。默认是 "ovr"

"ovr":表示分类类型是二分类，或让模型使用“一对多”的形式来处理多分类问题。
"multinomial":表示处理多分类问题，这种输入在参数 solver 是 "liblinear" 时不可用
"auto":表示会根据数据的分类情况和其他参数来确定模型要处理的分类问题的类型

注意：sklearn 0.22 版本中默认值从 "ovr" 更改为 "auto"

server

sklearn 提供了多种求解器来计算逻辑回归，由参数 selver 控制，共有五中选择，如表1 所示。

缺点用灰色标出

表1：

"ovr"和"multinomial"的区别

图1 所示，鸢尾花数据集是一个三分类（0，1，2）的数据集，通过该数据集来看两种不同的 multi_class 的表现和区别

根据图1 模型训练结果，鸢尾花数据集上，multinomial 的表现更好

示例代码

from sklearn.linear_model import LogisticRegression as LR
# load_iris 为鸢尾花数据集
from sklearn.datasets import load_iris

iris = load_iris()
print("通过打印iris.target查看鸢尾花数据集分类:\n{}".format(iris.target))

for multi_class in ["multinomial", "ovr"]:
    clf = LR(solver="sag", max_iter=1500, random_state=42,
            multi_class=multi_class).fit(iris.data, iris.target)
    # 打印两种 multi_class 模式下的训练分数
    # %用法：使用%来代替打印的字符串中想由变量替换的部分， %.3f代表保留三位小数的浮点数， %s表示字符串
    # 字符串后的 5 表示使用元组来容纳变量，字符串中有几个%,元组中就有几个元素
    print("training score: %.3f(%s)" % (clf.score(iris.data, iris.target), multi_class))