机器学习分类器性能指标ROC曲线、AUC值

一、ROC曲线:

什么是ROC曲线:

受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

(说了这么一大段没啥暖用。。然后,理解两个点吧:roc曲线上面每个点都反映着对同一信号刺激的感受性,敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。)


roc横轴(x轴):负正类率(false positive rate FPR):划分实例中的所有负例占所有实例的比例

负正类率=被预测为正的负样本数/负样本实际数

roc纵轴(y轴):真正类率(TPR)灵敏度:正样本预测结果数/正样本实际数

几个名词:

True positive(真正),被模型预测为正的正样本

True negative(真负),被模型预测为负的负样本

False positive(假正),被模型预测为正的负样本

False negative(假负),被模型预测为负的正样本

真正率(TPR灵敏度):TPR=TP/TP+FN

假正率(FPR),FPR=FP/TP+FN

真负率(TNR),TNR=TN/TN+FP

假负率(FNR),FNR=FN/TN+FP


假设采用逻辑回归分类器,给出针对每个实例为正类的概率,设定阈值为0.6,概率大于0.6为正类,小于0.6为负类,对应可算出一组(FPR,TPR)

理想目标是:TPR=1,FPR=0,即roc曲线图中(0,1)点,故roc曲线图中的线越靠近(0,1)点,越偏离45度对角线越好。偏离45度对角线和roc曲线间的area叫做equal error rate。


如何画roc曲线??

假设已经得到了一系列样本被划分为正类的概率,然后按照大小排序

number    class     score

1               P           0.9

2               N          0.8

3               P           0.7

4               P           0.6

接下来,从高到低,依次将score值作为阈值threshold=0.6,当测试样本属于正样本的概率大于或等于阈值,我们视为正样本,反之为负样本,按照score可得到FPR和TPR(上表中)

每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一个点。

连线就是roc图辣!是不是很简单hhhh

AUC:就是area under curve,auc越大越好啊。其他的没什么了,反正有代码。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值