auc指标和roc曲线
- auc
area under curve roc 曲线下的面积 - roc曲线
receiver operating characteristic curve 接受者操作特征曲线
横轴为FP rate,纵轴为TP rate - TP rate和FP rate
真正类率 FPR=FP/(FP+TN) 错误预测为正样本的负样本占负样本的比例
负正类率 TPR=TP/(TP+FN) 正确预测为正样本的正样本占正样本的比例
auc的优势
AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。例如在反欺诈场景,设欺诈类样本为正例,正例占比很少(假设0.1%),如果使用准确率评估,把所有的样本预测为负例,便可以获得99.9%的准确率。但是如果使用AUC,把所有样本预测为负例,TPRate和FPRate同时为0(没有Positive),与(0,0) (1,1)连接,得出AUC仅为0.5,成功规避了样本不均匀带来的问题。水平有限,欢迎拍砖~
软硬分类器
- 硬分类器
非概率模型
监督学习称为判别模型 - 软分类器
概率模型
监督学习称为生成模型
KS 指标(Kolmogorov-Smirnov)
KS=max(TPR-FPR)
如下图所示,这就是一个典型的KS曲线。
纵轴分别是TPR(绿色线),FPR(红色线)与TPR与FPR的距离(粉色的线)。
横轴我们并未选择传统的阈值(即0-1),我们将横轴变为逻辑回归中预测值Y的概率结果,所以横轴突破了1。在阈值为0.4117361的时候,TPR-FPR的差距是最大的,为0.902215。
因此,我们认为逻辑回归的模型应该将阈值定为41.17%。在这个时候,TPR很高,FPR很低。是