作者:王千发
编辑:王抒伟
对于分类算法,我们熟知的评价指标是准确率(accuracy),但是在实际问题中,我们想要得到一个优秀的模型,仅仅使用准确率是不够的。
比如在,乳腺癌数据集中:
其中201名没有复发(标记为0),85名复发(标记为1)。
显然这是一个不平衡数据集,假如我们的分类模型将所有的患者都预测为未复发,那么这个模型的准确率是(201/286)*100%也就是70.28%,这是一个比较高的准确率了。
但是这样的模型实际上是很差的,将所有的复发的人都预测为不会复发,那么患者得到这个信息之后如果不去检查和治疗,会导致疾病恶化甚至是出现生命危险。
因此,对于这类不平衡数据集,我们需要引入其他评价指标,分类模型的评价指标主要有准确率(accuracy),召回率(recall),精确率(precision),F1-Measure,ROC曲线和AUC等
说明一:
分析:
我们只讨论二值分类器。对于上面乳腺癌数据集来说,假如分类器的预测结 果是将201个未复发患者中190个预测为未复发,21个预测为复发;85个复发患 者中,80个预测为复发,5个预测为未复发,可以得到如下一张表
: