本章节主要针对分类问题中涉及的几个衡量质变进行简单介绍。在分类问题中,一般采用准确率(Accuracy)、精准率(Precision)、召回率(Recall)、F-Measure、ROC、AUC等指标对分类结果进行衡量。
1、正负类的理解(Positive and Negetive)
在二元(0-1)分类问题中,当我们将其中一类(例如0类)标记为正类时,那么剩余的一类(例1类)则标记为负类。类推到多分类问题中,我们则是将每个类别自身标记为正类,而自身之外的类别标记为负类。针对正负类,我们经常可以在分类问题中看到TP、FP、TN、FN四个概念。下面我们将对这四个概念进行介绍。
TP(True Positive),表示正确预测正类,即正类样本被模型分为了正类样本。
FP(False Positive),表示错误预测正类,即负类样本被模型分为了正类样本。
TN(True Negetive),表示正确预测负类,即负类样本被模型分为了负类样本。
FN(False Negetive),表示错误预测负类,即正类样本被模型分为了负类样本。
2、准确率(Accuracy)
准确率是指分类模型正确分类的概率,等于正确预测的样本数量与总样本数量的比值。准确率计
算方式如下:
其中,TP表示正确预测正类的样本数量,TN表示正确预测为负类的样本数量,N为样本总数量。
3、精确率(Precision)
精准率主要指正确预测的正类样本在所有预测结果为正类的样本中的占比。精准率计算方式如下:
其中,TP表示正确预测正类的样本数量,FP表示负类错误分为正类的样本数量。
4、召回率(Recall)
召回率主要指正确预测为正类的样本在实际正样本中的占比。召回率计算方式如下:
其中,TP表示正确预测正类的样本数量,FN表示正类错误分为负类的样本数量。
5、F-Measure
由精准率与召回率的定义可知,精准率是面向预测结果的,而召回率是面向实际样本的。这两者之间存在一定的矛盾。为此,人们将两个衡量指标进行加权调和平均来进一步综合考虑分类效果,这种方法被称之为F-Measure或F-Score。F-Score的计算方式如下:
其中,P为精准率,R为召回率。
6、总结
通过上述4种分类衡量指标的介绍,我们可以发现每种指标均有这自己针对的涵盖面。准确率是对样本分类整体精度的描述,其能够直接反映总样本中被正确分类的样本的占比。精准率和召回率是对样本分类中细节精度的描述,而F-Score则是对分类问题中细节的权衡考量。
既然上述的指标已经可以衡量分类精度,为什么还要提出ROC和AUC这个两个概念?在下一篇博客中,我们将对这两个概念进行介绍。