以二分类问题为例,我们有一个模型,要分辨西瓜中的好瓜(熟瓜)和坏瓜(生瓜)。
西瓜列表 = [A, B, C, D, E]
西瓜标签 = [好, 坏, 好, 坏, 坏]
模型对西瓜的预测结果可以记录成混淆矩阵:
预测值 | |||
好瓜 | 坏瓜 | ||
真实值 | 好瓜 | TP | FN |
坏瓜 | FP | TN |
模型的评价指标有:
查准率:精确率(precision)= TP/(TP+FP)
查全率:召回率(recall)= TP/(TP+FN)
模型对西瓜的预测结果并不是直接的二元结果,好还是坏,而是一种概率,比如模型判断西瓜A为好瓜的概率为0.8
模型对5个西瓜的判断为好瓜的概率分别为:[0.8, 0.4, 0.5, 0.3, 0.1]
给定一个阈值,当好瓜的概率大于这个阈值的时候,预测结果为好瓜,否则判断为坏瓜。
在上面的好瓜概率列表基础上,删除重复元素,并加上元素1,并排序,概率列表则为:
[1, 0.8, 0.5, 0.4, 0.3, 0.1]