TP:真的传染病患者被检测为传染病患者
FP:假的传染病患者被检测为传染病患者
假如现在10000人
其中9900正常,100人禽流感。
如果你的分类器全部设定为正常,那么精度就是9900,但是这个我们关心吗?我们不关心。
我们关心的是怎么把那100人找出来并且隔离,所以我们希望TP越高越高(正隔离),FP越低越好(错隔离)
所以ROC曲线啥意思呢?
宁可错杀一千(FP)也不肯放过一个(TP)
所以kaggle上面的Public LB采用的是ROC_AUC,并不是我们常见的分类器准确率。
ROC_AUC希望错杀的越少越好,正杀的越多越好,对健康人放置不管。
------------------------------------------下面举例-------------------------------------------
(a) (b) <-classified as
----- -----
569014 863 (a): class -
10014 10649 (b): class +
这个例子来自IEEE-Fraud-detection 比赛。
这个结果提交到public LB以后,得分只有0.68,所以其实是使用了
第二行中10014 10649中的数据。