自己老是容易记混,现在想个比喻的方法来加深自己的记忆:
- 首先有一堆样本,这堆样本里有正样本和负样本。现在把正样本看成警察团体,负样本看成卧底团体。现在模型对所有人进行了评估,给每个人打了一个是真警察的概率。然后按照这个给概率让大家排队。
- 现在按照排队顺序给大家颁发警察证书。
- 那么AUC曲线里的纵轴,也就是召回率,关注的就是这些真警察,有哪些已经被颁发了证书,比例是多少。而横轴关心的就是这些卧底,看有多少卧底被颁发了证书,比例是多少。也就是误判。
- 画图曲线:一开始当然大家都没有证书,所以肯定都是0,到最后大家都有证书了,所以肯定都是1. 按照顺序,给真警察颁一个,曲线就垂直往上走一个点,要是给卧底颁发了一个(误判),就往右走一个点。
- 那么怎么说明模型好呢?当然就是模型判的真警察概率比卧底高,也就是真警察都排在卧底前面,这样就可以通过发到某个地方就不发证书了来区分出卧底嘛(阈值设定)。所以模型最好的情形对应着曲线一直往上走,然后一直往右走
- 补充:对于F1曲线中的查准率(精准率),关注的则是发了证书的人里面有多少真警察。所以三个比率,一个关注的是发了证书的人,一个是真警察团体,一个是卧底团体。