模型评估的一些方法理论(算法理论)

MAIN:

 

一、混淆矩阵
混淆矩阵就是如下图所示的那样,也是最简单的一种模型验证方法:
通过混淆矩阵可以算出模型预测精度((a+d)/(a+b+c+d))、正例覆盖率(b/(c+d))、负例覆盖率(a/(a+b))等。通过这么些指标综合考虑模型的预测准确率。

二、ROC曲线
在讲解ROC曲线之前,我们先看看几个定义:
Sensitivity:正确预测到的正例数/实际正例总数,即b/(c+d)
Specificity:正确预测到的负例数/实际负例总数,即a/(a+b)
ROC曲线就是根据这两个指标值绘制出来的,其中x轴为1-Specificity,y轴为Sensitivity。
通过比较ROC曲线与45°直线可以直观的反映模型的好坏,但并不能从定量的角度反馈模型好是好到什么程度或模型差是差到什么程度。
那么就引申出了AUC的概念,即ROC曲线下的面积。当曲线偏离45°直线越远,则AUC越大,模型相应就会越好。一般认为AUC在0.75以上,模型就可以接受了。

三、提升度Lift
在讲解提升度曲线之前,我们先看看几个定义:
Pi:测试集中正例的比例,即(c+d)/(a+b+c+d)
Ptp:正确预测到的正例个数占总观测值的比例,即d/a+b+c+d=Pi1* Sensitivity
Pfp:把负例错误地预测成正例的个数占总数的比例,即b/a+b+c+d=(1-Pi1)*(1- Specificity) 
Depth:预测成正例的比例,即b+d/a+b+c+d=Ptp+Pfp
PV_Plus:正确预测到的正例数/预测正例总数,即d/(b+d)=Ptp/depth
提升度Lift=(d/b+d)/(c+d/a+b+c+d)=PV_plus/Pi1
Lift曲线就是根据Depth和Lift两个指标绘制而成,它反映了预测正例的正真准确率。

四、增益法Gain
其实增益法Gain与提升度是一个事物的两种说法,从公式中就可以看出:
Gain=d/(b+d)=PV_plus
Gain与提升度相比并没有除以Pi值。

五、K-S统计量
统计学中,对于单样本的K-S检验就是利用样本数据来推断其是否服从某种分布,对于两样本的K-S检验主要推测的是两个样本是否具有相同的分布,
对于模型的评估,希望正例的累积概率分布与负例的累积概率分布存在显著差异。
所以我们使用K-S统计量刻画模型的优劣,即使正例与负例的累积概率差达到最大。
k-s <0.2 差
    0.2~0.4 一般
    0.4~0.5 好
    0.5~0.6 很好
    0.6~0.75 非常好
    0.75~1 完美
 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值