一. ROC曲线:
横轴是FPR(False Positive Rate),纵轴是TPR(True Positive Rate)。
关于ROC的绘制过程上篇文章已经讲解过了ROC曲线的绘制
咱们在这里简单介绍一下:
一个完美的模型可以通过设定一个概率阈值点,使得大于该概率阈值的样本均为正样本即坏样本,小于该概率阈值的样本均为负样本即好样本。
由图可以看出:
- ROC 曲线由 A 点经过 B 点到达 C 点,表示在舍弃 0%的好用户的前提下,可以 100%地拒绝坏用户,即没有坏用户被准入
- 图中虚线可以看出,在舍弃 50%的好用户的前提下,可以避免 50%的坏用户,此时错杀了一半的好用户,并且有一半的坏用户没有识别出来。
ROC 曲线应该在虚线的左上部且越靠近 B 点时模型的表现越好
ROC 曲线的量化表示为 AUC
AUC: ROC 曲线与坐标轴围成的面积,面积越大表示模型的性能越好。
由于 AUC 的取值在 0.5~1 之间,我们更习惯于一个取值范围在 0~1 之间的指标,这时候就有了归一化后的 AUC 表示方式就是基尼系数或基尼统计量
注意,这里的基尼系数和决策树的基尼系数是不同的,只是名称类似.
公式:
ROC 曲线的本质:反映了舍弃一定数量的好用户可以避免多少坏用户之间的相互关系.
二.提升图:
提升图的作用:提升图比较