cross_val_score的 scoring参数值解析

一般我们在模型训练过程中,会采用K折交叉验证的方法来验证模型的表现,从而进行调参,一般我们会用到

sklearn.model_selection 的 cross_val_score 方法来计算模型的得分 
scores = cross_val_score(clf, iris.data, iris.target, cv=5,scoring='accuracy')

我们看到这里有个参数 scoring 参数,去scikit-learn官网了解之后发现这里的 scoring参数是默认为 None 的

sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs’)

scoring 参数可以有下面这些选择 具体参见 scoring-parameter

这里文档对分类、聚类和回归三种问题下可以使用的参数进行了说明

分类(classification)问题中

常用的是 ‘precision’ 和 ’recall‘ 和 ’f1,三者的关系可以用下图来表示

假设这是一个二元分类的问题

准确率(precision)也就是被分类器检测到的数据中 分类正确的部分

召回率(recall)就是 正类中被分类正确的部分

而F1值就是 准确率和召回率的调和平均数

在实际应用中,如果是做搜索类的问题,那就是在保证召回率的情况下提升准确率

在做垃圾邮件检测之类的问题,就是要保证准确率的情况下提升召回率

具体也就是遇到具体问题看两者的权衡

如果两者都要求高,那就需要保证较高的F1 score

回归类(Regression)问题中

比较常用的是 'neg_mean_squared_error‘ 也就是 均方差回归损失

该统计参数是预测数据和原始数据对应点误差的平方和的均值

公式长这样,了解下就ok了

 

以上属于个人的一点理解,不足之处大家可以随意吐槽

 

### 回答1: cross_val_score参数scoring表示模型评估指标,用于衡量模型预测的准确度。scoring参数可以接受多种不同的评估指标,例如平均绝对误差(mean absolute error,MAE)、均方误差(mean squared error,MSE)、R平方(R-squared)等。您可以根据具体的任务和需求选择适合的评估指标,以评估模型的性能表现。 ### 回答2: 在使用scikit-learn库的交叉验证函数cross_val_score时,参数scoring用于指定评价模型表现的指标。scoring可以是准确率、精确率、召回率、F1分数、ROC曲线下面积等等。不同的指标适用于不同的场景。 例如,当处理二分类问题时,我们通常会关注准确率、精确率、召回率和F1分数。准确率是模型正确预测出样本总数占总样本数的比例,精确率是模型预测为正样本的样本实际为正样本的比例,召回率是正样本被预测出的样本总数占实际正样本总数的比例,F1分数综合考虑了精确率和召回率,是精确率和召回率的调和平均数。 如果处理的是多分类问题,那么就需要用到accuracy_score、f1_score、precision_score和recall_score等指标。accuracy_score是正确预测的样本总数占总样本数的比例,f1_score、precision_score和recall_score的计算方式和二分类问题的相同,只是针对的是多类别的分类问题。 有时候,还需要使用自定义的评价指标,需要先定义一个函数,该函数的输入为真实标签和预测标签,输出为任意的标量值,例如均方误差或对数损失函数等。然后在交叉验证函数cross_val_score将该函数传入参数scoring,即可使用自定义的评价指标。 总之,参数scoring在交叉验证非常重要,它决定了如何评价模型的性能。不同的场景可以选择不同的scoring指标。同时,也可以根据需要定义自己的评价指标。 ### 回答3: cross_val_scorescikit-learn的一个函数,用于评估分类或回归模型的性能。在使用这个函数时,我们需要指定一些参数,其一个重要的参数便是scoring。 scoring参数可以让我们指定衡量模型性能的标准。在分类问题,可选的评估指标包括accuracy、precision、recall、f1-score等。在回归问题,可选的评估指标包括mean squared error、mean absolute error、r2-score等。 例如,当我们需要评价一个分类模型的准确性时,可以将scoring参数设置为'accuracy'。这样,cross_val_score会返回模型交叉验证的准确性得分,我们可以基于这个指标来选择和调整模型。 下面是几个常见的scoring指标的介绍: 1. Accuracy:预测正确的样本数占总样本数的比例。适用于类别平衡的分类问题。 2. Precision:预测为正的样本,真正为正的样本数占预测为正样本数的比例。适用于需要减少误报的分类问题。 3. Recall:真正为正的样本,预测为正的样本数占真正为正样本数的比例。适用于需要减少漏报的分类问题。 4. F1-Score:精确率和召回率的调和平均值。适用于需要综合考虑精确率和召回率的分类问题。 5. Mean Squared Error:每个预测值与真实值之差的平方的平均数。适用于连续型的回归问题。 6. Mean Absolute Error:每个预测值与真实值之差的绝对值的平均数。适用于连续型的回归问题。 7. R2-Score:决定系数,衡量模型预测的误差占总方差的比例。适用于连续型的回归问题。 除了以上介绍的评估指标外,还有很多其它的指标可供选择。在选择合适的scoring参数时,需要结合具体的问题需求和数据情况来进行考虑。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值