四个基本概念
这四个基本概念理解起来很简单,但是老是忘记,记录一下:
TP(真阳性):预测为正,实际也为正
FP(假阳性):预测为正,实际为负
FN(假阴性):预测与负、实际为正
TN(真阴性):预测为负、实际也为负
精确率和召回率
我们假设对癌症预测,在所有的样本数据中,真实患癌症的人非常少,大概只有0.5%的概率,一般这样的问题称为偏斜类
。
对于这种类型的问题,可能一个只输出y=1(没有患癌症的人)的函数都比你的模型准确。
所以引入了准确率P和召回率R,对于稀有的样本有:
精确率 P = T P 真阳性 T P 真阳性 + F P 假阳性 \frac{TP真阳性}{TP真阳性 + FP假阳性} TP真阳性+FP假阳性TP真阳性
召回率 R = T P 真阳性 T P 真阳性 + F N 假阴性 \frac{TP真阳性}{TP真阳性+FN假阴性} TP真阳性+FN假阴性TP真阳性
F1 Score
对于上面的癌症预测问题,我们引入了准确率P和召回率R之后,则可以用F1分数(调和平均数)来衡量模型的好坏,这是统计学中用来衡量二分类模型精确度的一种常用指标。它的值最大是1,最小是0。
F1 score会比较照顾数值小的一方,如果PR都为0,F1 score=0;如果PR都为1,F1 score=1
F1 Score: 2 ∗ P R P + R 2*\frac{PR}{P+R} 2∗P+RPR
Micro-F1和Macro-F1
在多标签分类任务中,可以对每个“类”,计算F1分数往往不够,显然需要把所有类的F1分数合并起来考虑,所以这里引入Micro-F1和Macro-F1。
Micro-F1(微平均):计算出所有类别总的Precision和Recall,然后计算F1
Macro-F1(宏平均):计算出每一个类的Precison和Recall后计算F1,最后将F1平均
Micro-F1和Macro-F1这两个评价指标非常常用,是许多经典模型在实验中所选择的评价指标。