举个例子:
上图 :
红色代表真的正样本,蓝色代表真的负样本。
灰色垂直线代表分类算法。灰色线可以左右移动,灰色线所处位置代表了 同一算法 不同检测阈值。
灰线左侧是估计的正样本,灰线右侧是估计的负样本。
灰色水平线在较左的位置代表:同一个分类算法 + 评判标准较严,漏掉了很多真的正样本(红色)。
灰色水平线在较右的位置代表:同一个分类算法 + 评判标准宽松,混进来很多假的正样本(蓝色)。
上图 ,是从另外一种角度的思维方法和展示方法,红色代表正样本,蓝色代表负样本。灰色的竖线代表分类算法。
左侧小图中,灰色线不论如何左右移动,不能很完美地分类数据。
右侧小图中,灰色线移动到某个位置的时候,能够完美的分类数据。
- 问:ROC 曲线 是什么?
答:表面上看是随着分类标准的降低, x-坐标轴从0%到100%, 假阳性率越来越高,真阳性率 也越来越高。:
真阳性率 ( 真的正样本率,TPR) = 判别正确的正样本 / 全体正样本
=(下图)灰色竖线左侧红色样本 / 所有红色样本
假阳性率(假的正样本率, FPR)= 判别错误的正样本 / 全体负样本
=(下图)灰色竖线侧蓝色样本 / 所有蓝色样本
实际上是是算法将数据做二分类的能力评价。或者说是数据是否适合某个算法的评价。
- 问:ROC曲线如何画出来:
答:ROC 曲线绘制步骤
1,将全部样本按得分递减排序
2,阈值从1到0, 逐步降低阈值,计算各个阈值下对应的(FPR,TPR)数值对
3,将数值对绘制在直角坐标中,x,y轴刻度都是1-100%
TPR 是 true positive rate,=正确的阳性 / 所有阳性;
FPR是false positive rate,=正确的阴性 / 所有阴性。
参考:
todo
对应的编写一个H5网页小程序,可以更加直观和友好地理解ROC。