本文仅用于自我学习,理清思路,并作为笔记保留下来。这是我的第一篇博客,如有不妥,请多多指教。
AUC理解
AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积,如下图:
要理解这张图的含义,得先理解下面这个表:
表中列代表预测分类,行代表实际分类:
实际1,预测1:真正类(tp)
实际1,预测0:假负类(fn)
实际0,预测1:假正类(fp)
实际0,预测0:真负类(tn)
真实负样本总数=n=fp+tn
真实正样本总数=p=tp+fn
在第一张图中,
横坐标false positive rate 代表假正类率,由fp/n计算得到,
意为 在实际负样本中出现预测正样本的概率。
纵坐标true positive rate 代表真正类率,由tp/p计算得到,
意为 在实际正样本中出现预测正样本的概率。
为什么这样一个指标可以衡量分类效果?
先来看看如何得到这条曲线:
1. 通过分类器得到每个样本的预测概率,对其从高到低进行排序
2. 从高到低,分别以每一个预测概率作为阈值,大于该阈值的认定其为1,小于的为0,计算fp rate和tp rate。
对于一个有分类效果(效果比随机要好)的分类器,刚开始将高概率作为阈值时&#x