在分类模型中,常用的评价指标包括混淆矩阵、ROC曲线、AUC、KS指标、提升度等。其中针对正负样本极度不平衡的分类问题,例如广告分类预测问题,最常用的模型评价指标就是AUC。
混淆矩阵是分类问题中常用的模型评价方法之一。以广告二分类问题为例,假设模型预测为正例则记为1(Positive),如点击用户;预测为反例则记为0(Negative),如非点击用户,那么我们可以将实际的数据情况与模型预测结果相结合,得到以下2×2矩阵,也就是我们常说的混淆矩阵,如图4-2所示。
其中,各参数说明如下:
·TP表示预测值为正例,真实值也为正例;·FP表示预测值为正例,真实值为反例;·FN表示预测值为反例,真实值为正例;·TN表示预测值为反例,真实值也为反例。
对于预测性的分类模型,当然是希望预测结果越准确越好。那么对应到混淆矩阵中,就是希望TP与TN对应位置的数值越大越好,而FP与FN对应位置的数值越小