skiti-learn逻辑回归算法库

skiti-learn中,与逻辑回归相关的3个类:LogisticRegression, LogisticRegressionCV,logistic_regression_path。LogisticRegressionCV使用交叉验证选择正则化系数C。logistic_regression_path类则比较特殊,它拟合数据后,不能直接来做预测,只能为拟合数据选择合适逻辑回归的系数和正则化系数。主要是用在模型选择的时候。一般情况用不到这个类。

  1. 正则化选择参数:penalty
    penalty选择"l1"或"l2",两种正则化方式, 默认的为L2正则化。
    为了防止过拟合,一般采用L2正则化足够了,如果采用L2正则化发现还是过拟合,就可以考虑L1正则化,另外,我们希望把一些不重要的特征系数归零,使模型系数稀疏的话,也可以采用L1正则化。
    penalty的选择会影响损失函数的优化方式,即solver参数的选择。如果使用L2正则化可以有四种优化方式,(newton-cg , lbfgs , liblinear , sag) .而选择L1正则化只能有一种优化方式 liblinear。这个与L1正则化损失函数不是连续可导有关。

  2. 优化算法选择参数:solver
    solver参数有四种优化算法可以选择。
    1)liblinear:内部采用的是坐标轴下降法
    2)lbfgs:拟牛顿法的一种,利用损失函数二阶导矩阵即海森矩阵迭代优化损失函数
    3)newton-cg:牛顿法的一种,也是利用损失函数二阶导矩阵海森矩阵优化损失函数
    4)sag:随机平均梯度下降,每次迭代只采用一部分样本计算梯度,适用于数据量多的样本
    逻辑回归分二元逻辑回归和多元逻辑回归,而多元逻辑回归又分OvR(one-vs-rest)和MvM(many-vs-many)两种,而liblinear只支持OvR。所以当遇到MvM的情况是不能采用L1正则化

  3. 分类方式选择参数:multi_class
    multi_class决定分类的选择方式,有OvR和multinomia两种,默认是ovr
    OvR的思想很简单,无论你是多少元逻辑回归,我们都可以看做二元逻辑回归。具体做法是,对于第K类的分类决策,我们把所有第K类的样本作为正例,除了第K类样本以外的所有样本都作为负例,然后在上面做二元逻辑回归,得到第K类的分类模型。其他类的分类模型获得以此类推。
    而MvM则相对复杂,这里举MvM的特例one-vs-one(OvO)作讲解。如果模型有T类,我们每次在所有的T类样本里面选择两类样本出来,不妨记为T1类和T2类,把所有的输出为T1和T2的样本放在一起,把T1作为正例,T2作为负例,进行二元逻辑回归,得到模型参数。我们一共需要T(T-1)/2次分类。
    OvR分类效果相对略差(大多情况下),不过速度快,且简单;MvM分类相对精确。
    ovr可以使用四种损失函数优化方式。MvM只能使用三种,无法使用liblinear。

  4. 类型权重参数:class_weight
    class_weight标示分类模型各种类型的权重,不输入,即不考虑权重或者说所有类型的权重相同。输入的话,可以选择balanced让库类型自己计算权重;或者我们自己输入权重,比如0,1二元模型,class_weight={0:0.9,1:0.1},这样类型0的权重为90%,1为10%。
    balanced会根据训练样本量来计算权重,样本量越低,权重越高。
    在分类模型中我们一般会遇到以下两种情况:

    1. 误分类的代价很高。比如分类合法用户和非法用户,将非法用户分类为合法用户的代价很高,我们宁愿将合法用户分类为非法用户。这样我们可以适当提高非法用户的权重。
    2. 样本高度失衡。比如我们用户样本有10000条,合法用户有9995,而非法用户只有5条。不考虑权重,所有的可能都将预测为合法用户,不过毫无意义。我们可以用balanced,让类库自动提高非法用户的权重。
  5. 样本权重参数:sample_weight
    当样本不平衡导致模型预测能力下降,我们采用调节样本权重来解决。调节岩本权重的方法有两种:一种是calss_weight使用balanced;二种是在调用fit函数时使用sample_weight。如果以上方法都用到了则样本的真正权重是calss_weight*sample_weight。
    另外还有些参数比如正则化参数C(交叉验证就是 Cs),迭代次数max_iter等。与其他库用法相同。

要使用scikit-learn进行逻辑回归的训练,可以按照以下步骤进行操作: 1. 导入所需的和模块:首先需要导入scikit-learn中的逻辑回归模块。可以使用以下代码导入: ```python from sklearn.linear_model import LogisticRegression ``` 2. 准备数据集:接下来,需要准备用于训练的数据集。将数据集拆分为特征矩阵X和目标变量y。确保数据集已经经过预处理和特征工程。 3. 创建逻辑回归模型对象:使用LogisticRegression()函数创建一个逻辑回归模型对象。可以根据需要设置模型的参数,比如正则化参数C、求解器solver等。 4. 训练模型:使用fit()函数将数据集(X, y)传入模型对象,进行模型的训练。该函数将自动拟合逻辑回归模型,并根据提供的数据进行参数估计。 5. 进行预测:训练完成后,可以使用训练好的模型进行预测。使用predict()函数,将测试集或新样本的特征矩阵X传入模型对象,得到预测结果。 下面是一个示例代码,展示了如何使用scikit-learn进行逻辑回归的训练和预测: ```python from sklearn.linear_model import LogisticRegression # 准备数据集 X_train = ... y_train = ... X_test = ... # 创建逻辑回归模型对象 model = LogisticRegression() # 训练模型 model.fit(X_train, y_train) # 进行预测 y_pred = model.predict(X_test) ``` 这样,你就可以使用scikit-learn的逻辑回归模块进行训练和预测了。请注意,在实际应用中,还需要进行模型评估、参数调优等步骤来提高模型性能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [机器学习之PyTorch和Scikit-Learn第3章 使用Scikit-Learn的机器学习分类器之旅Part 1](https://blog.csdn.net/ardor123/article/details/130378951)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值