深度学习模型评价指标
图像分类评价指标
图像分类是计算机视觉中最基础的一个任务,也是几乎所有的基准模型进行比较的任务,从最开始比较简单的10分类的灰度图像手写数字识别mnist,到后来更大一点的10分类的cifar10和100分类的cifar100,到后来的imagenet,图像分类任务伴随着数据库的增长,一步一步提升到了今天的水平。现在在Imagenet这样的超过1000万图像,2万类的数据集中,计算机的图像分类水准已经超过了人类。图像分类,顾名思义就是一个模式分类问题,它的目标是将不同的图像,划分到不同的类别,实现最小的分类误差,这里我们只考虑单标签分类问题,即每一个图片都有唯一的类别。
对于单个标签分类的问题,评价指标主要有Accuracy,Precision,Recall,F-score,PR曲线,ROC和AUC。在计算这些指标之前,我们先计算几个基本指标,这些指标是基于二分类的任务,也可以拓展到多分类。计标签为正样本,分类为正样本的数目为True Positive,简称TP。标签为正样本,分类为负样本的数目为False Negative,简称FN。标签为负样本,分类为正样本的数目为False Positive,简称FP。标签为负样本,分类为负样本的数目为True Negative,简称TN。
判别是否为正例只需要设一个概率阈值T,预测概率大于阈值T的为正类,小于阈值T的为负类,默认就是0.5。如果我们减小这个阀值T,更多的样本会被识别为正类,这样可以提高正类的召回率,但同时也会带来更多的负类被错分为正类。如果增加阈值T,则正类的召回率降低