混淆矩阵
准确率:预测正确的里边有几个真正正确的
P
=
T
P
T
P
+
F
P
P=\frac{TP}{TP+FP}
P=TP+FPTP
召回率:在正确的里边,预测了几个对的
R
=
T
P
T
P
+
F
N
R=\frac{TP}{TP+FN}
R=TP+FNTP
F1度量
基于准确率和召回率的调和平均
AUC面积
ROC曲线
- ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
- 有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
- 可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。
横坐标:
T P R = T P T P + F N TPR=\frac{TP}{TP+FN} TPR=TP+FNTP
纵坐标:
F
P
R
=
F
P
T
N
+
F
P
FPR=\frac{FP}{TN+FP}
FPR=TN+FPFP
左下角:所有predict都为反例
右下角:所有预测都为正例
这里调整的就是阈值
AUC:
如果两条ROC曲线没有相交,我们可以根据哪条曲线最靠近左上角哪条曲线代表的学习器性能就最好。但是,实际任务中,情况很复杂,如果两条ROC曲线发生了交叉,则很难一般性地断言谁优谁劣。在很多实际应用中,我们往往希望把学习器性能分出个高低来。在此引入AUC面积。
曲线下的面积就是AUC,越大越好。
AUC是衡量二分类模型优劣的一种评价指标,表示预测的正例排在负例前面的概率