分类性能基本概念
与预测性能评价指标相类似,分类性能评价指标同样也是将模型计算得出的标签值与实际的真实标签值通过数学统计上的公式进行计算来获得它们之间的关系,以此来评价模型分类性能的好坏。在二分类时,常见的性能分类指标有准确率、精确率、召回率、F1-score、ROC曲线面积,在多分类时主要使用准确率、精确率、召回率以及F1-score进行比较,同时还可使用混淆矩阵对分类评价结果进行展示。下面对常见的分类性能评价指标进行介绍。
在了解常见的分类性能评价指标之前,首先需要了解以下几个基本概念:
假设在分类问题中类属性标签分别为0和1,将类属性标签为0的样本视作正样本,将类属性标签为1的样本视作负样本,则被模型正确分类为正样本的正样本被称为真正例(True Positive,简称TP),被模型正确分类为负样本的负样本被称为真负例(True Negative,简称TN), 被模型错误分类为正样本的负样本被称为假正例(False Positive,简称FP),被模型错误分类为负样本的正样本被称为假负例(False Negative,简称FN)。
基于上述概念,几种常见的分类性能评价指标分别如下:
1、准确率
分类准确度主要通过计算分类正确的数据与数据总量之间的比值获得,其计算公式如下:
其中n_correct表示分类正确的样本数量&#x