python评估不平衡数据集_第56集 python机器学习:评估指标与评分

就目前为止,我们使用预测的精准度来评估分类性能,使用R²来评估回归性能,但是,总结监督模型给定数据集上的表现有多种方法,这两个指标只是其中两种。在实践中,这些评估指标可能不适用于某些应用,但是在进行模型选择和调参时,选择正确的指标是很重要的。接下来我们先讨论二分类指标。

首先我们来看一下常见的几个定义:

二分类指标:二分类可能是实践中最常见的机器学习应用,对于二分类问题,我们通常会说正类(positive class)和反类(negative class),而正类是我们要寻找的类。

错误类型:我们把本来应该是正类的结果预测为反类结果的样例叫做假正例;本来应该是反例的结果预测为正例成为假反例;假正例也叫第一类错误,假反例也成为了第二类错误(type II error)

不平衡数据集:在机器学习中,我们将一个类别比另一个类别出现的次数多出很多的现象,叫做不平衡数据集(imbalanced dataset)或者具有不平衡类别的数据集(dataset with imbalanced)。在实际应用中,不平衡数据集才是常态,就比如我们浏览某个网页,但是我们关注的知识其中的某个点,而网页中的大部分内容我们是不关心的。

下面我们以digits数据集中的数字9与其他9个类别加以区分,从而创建一个9:1的不平衡数据集:

from sklearn.datasets import load_digits

digits = load_digits()

y = digits.target =

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值