一、ROC曲线:
什么是ROC曲线:
受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
(说了这么一大段没啥暖用。。然后,理解两个点吧:roc曲线上面每个点都反映着对同一信号刺激的感受性,敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。)
roc横轴(x轴):负正类率(false positive rate FPR):划分实例中的所有负例占所有实例的比例
负正类率=被预测为正的负样本数/负样本实际数
几个名词:
True positive(真正),被模型预测为正的正样本
True negative(真负),被模型预测为负的负样本
False positive(假正),被模型预测为正的负样本
False negative(假负),被模型预测为负的正样本
真正率(TPR灵敏度):TPR=TP/TP+FN
假正率(FPR),FPR=FP/TP+FN
真负率(TNR),TNR=TN/TN+FP
假负率(FNR),FNR=FN/TN+FP
假设采用逻辑回归分类器,给出针对每个实例为正类的概率,设定阈值为0.6,概率大于0.6为正类,小于0.6为负类,对应可算出一组(FPR,TPR)
理想目标是:TPR=1,FPR=0,即roc曲线图中(0,1)点,故roc曲线图中的线越靠近(0,1)点,越偏离45度对角线越好。偏离45度对角线和roc曲线间的area叫做equal error rate。
如何画roc曲线??
假设已经得到了一系列样本被划分为正类的概率,然后按照大小排序
number class score
1 P 0.9
2 N 0.8
3 P 0.7
4 P 0.6
接下来,从高到低,依次将score值作为阈值threshold=0.6,当测试样本属于正样本的概率大于或等于阈值,我们视为正样本,反之为负样本,按照score可得到FPR和TPR(上表中)
每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一个点。
连线就是roc图辣!是不是很简单hhhh
AUC:就是area under curve,auc越大越好啊。其他的没什么了,反正有代码。