小明是AI小学的一个小学生,在他的班里有男生80人,女生20人,共计100人。第一天上学,小明被要求通过自身观察,找出所有的女生来。
现在,小明挑选出了50个人,其中20人是女生,另外还错误地把30个男生也当作女生挑选了出来了。
作为评估者的你需要来评估下他的工作,用一些不同的标准来衡量他这次划分的准确度。
1. 精确率与召回率
首先登场的是两个最直观的比率,精确率和召回率(Precision and Recall)。小明分出来的“女生”中,真正的女生所占的比例就是精确率,也叫做查准率;在全班所有真正的女生中,小明正确找出来的女生所占的比例就是召回率,也叫查全率。就是说,本次分类中,小明工作的精确率和召回率分别是40%和100%。这两个比率简单粗暴地反映出一次分类的实际效果,精确率着重于结果,看看你分对了多少;召回率着重于样本,看看你分出了多少。
另外,还有一个常见的比率是“假正例率”(FPR),代表被错分成女生的男生在所有男生中的占比,这个例子里它是30/80=37.5%。这项比率在ROC绘制时会用到。
在实际的产业应用中,我们常常需要考虑模型的精确率和召回率,依据这两个比率绘制出的PR曲线是重要的评估指标。
2. F-Measure
你把小明这次分类的精确率和召回率告诉了他,他觉得Precision太低了,于是决定认认真真重做一次分类,争取不要有哪怕一次错分。在长达半个小时的“全力辨识”下,他达成了目标:只找出一位同学,他确