模型评估指标
- 分类模型作为使用场景最为广泛的机器学习模型,相关模型评估指标也伴随着使用场景的拓展而不断丰富。除了准确率以外,常用的二分类模型的模型评估指标还有召回率(Recall)、F1指标(F1-Score)、受试者特征曲线(ROC-AUC)、KS曲线等等。不同评估指标有对应的不同的计算方法,当然也有不同的使用场景
- 接下来对二分类问题的模型评估指标进行统一介绍,在次之前,先来看看准确率作为衡量指标的局限性
准确率局限
- 首先,是准确率作为模型评估指标时的局限。整体来看,准确率作为最为通用、同时也是较好理解的评估指标,在机器学习领域其实仍然存在一定局限。当然,归根结底,这些局限其实是由准确率本身的计算过程所决定的
- 首先也是最重要的一点,就是准确率在计算过程中,所有样本其实是“均匀投票”的(贡献度一致),也就是说对每个样本的判别结果,对于最终准确率的影响其实是相同的。例如假设总共有100条数据进行分类,其中任意一条样本被误判都会且仅会影响1%的准确率
- 如此一来就会造成两方面影响,其一,对于某些样本极端不平衡的分类数据集来说准确率很难很好的衡量模型表现,例如,假设总共有100样本,其中0类有99条,1类有1条,则此时就算模型判别此100条样本全都为0类,准确率也将达到99%,但很多时候可能我们希望的是模型能够将这些1识别出