2019-12-16学习

本文介绍了AUC和ROC曲线的概念,强调了AUC在样本不平衡时的优势。还探讨了软硬分类器的区别,以及KS指标、PSI指标、KL散度、粒度、Lift曲线、P-R曲线和层次分析法(AHP)在评估模型性能中的作用。此外,文章提到了混合高斯模型和EM算法在参数估计中的应用。
摘要由CSDN通过智能技术生成

auc指标和roc曲线

  • auc
    area under curve roc 曲线下的面积
  • roc曲线
    receiver operating characteristic curve 接受者操作特征曲线
    横轴为FP rate,纵轴为TP rate
  • TP rate和FP rate
    真正类率 FPR=FP/(FP+TN) 错误预测为正样本的负样本占负样本的比例
    负正类率 TPR=TP/(TP+FN) 正确预测为正样本的正样本占正样本的比例

auc的优势

AUC的计算方法同时考虑了分类器对于正例和负例的分类能力,在样本不平衡的情况下,依然能够对分类器作出合理的评价。例如在反欺诈场景,设欺诈类样本为正例,正例占比很少(假设0.1%),如果使用准确率评估,把所有的样本预测为负例,便可以获得99.9%的准确率。但是如果使用AUC,把所有样本预测为负例,TPRate和FPRate同时为0(没有Positive),与(0,0) (1,1)连接,得出AUC仅为0.5,成功规避了样本不均匀带来的问题。水平有限,欢迎拍砖~

软硬分类器

  • 硬分类器
    非概率模型
    监督学习称为判别模型
  • 软分类器
    概率模型
    监督学习称为生成模型

KS 指标(Kolmogorov-Smirnov)

KS=max(TPR-FPR)
如下图所示,这就是一个典型的KS曲线。

纵轴分别是TPR(绿色线),FPR(红色线)与TPR与FPR的距离(粉色的线)。

横轴我们并未选择传统的阈值(即0-1),我们将横轴变为逻辑回归中预测值Y的概率结果,所以横轴突破了1。在阈值为0.4117361的时候,TPR-FPR的差距是最大的,为0.902215。

因此,我们认为逻辑回归的模型应该将阈值定为41.17%。在这个时候,TPR很高,FPR很低。是

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值