推荐系统CTR预估之评价指标
推荐系统二分类评价指标
本文重点介绍推荐系统的二分类预估评价指标。二分类,即只有正样本和负样本两种情况。
常用的评价指标有Precision,Recall,F1-score,AUC,Logloss,Normalized Logloss,Calicration等。其中,AUC是最常用,也是最重要的评价指标。下面,将对这些评价指标简单介绍。
如果我们对一个样本进行分类,会有4种情况,分别是:
T P TP TP: 真正例(正样本,且被预测为正样本)
F P FP FP: 假正例(负样本,但被预测为正样本)
T N TN TN: 真负例(负样本,且被预测为负样本)
F N FN FN: 假负例(正样本,但被预测为负样本)
准确率precision
在所有预测为正的样本中,有多少是真的正样本,衡量的是检索系统的查准率。公式可写为:
P r e c i s i o n = T P T P + F P Precision = \frac {TP} {TP+FP} Precision=TP+FPTP
召回率recall
在所有正样本中,有多少预测正确了,衡量的是检索系统的召回率。公式为:
R e c a l l = T P T P + F N Recall = \frac {TP} {TP+FN} Recall=TP+FNTP
准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了。
如果是做搜索,那就是保证召回的情况下提升准确率;如果做疾病监测、反垃圾,则是保准确率的条件下,提升召回率。
也引入了准确率和召回率的综合指标,即F1-Score。
F1-Score
precision和recall的折中指标,公式为:
F 1 = 2 ∗ P ∗ R P + R F_1 = \frac {2*P*R} {P+R} F1=P+R2∗P∗R
AUC(Area under curve)
即曲线下面积,这里说的曲线,即ROC曲线。如下图所示:
该曲线的纵坐标是真正例率(TPR),横坐标是假正例率(FPR)。
T P R = T P T P + F N TPR = \frac {TP} {TP + FN} TPR=TP+FNTP
表示在所有正样本中,正确预测的比例。也就是前面提到的召回率。
F P R = F P F P + T N FPR = \frac {FP} {FP + TN} FPR=FP+TN