我们模型应该从对角线上看
我们举一个例子,帮助理解混淆矩阵,在真实标签中,如果我们生病了,我们就是1,如果我们没生病就是0
TP:我们真的病了,然而模型也预测出来我们生病了(俩都是真病了)
FN:我们真的病了,然后模型却没有预测出来我们生病了(真病,模没病)
FP:我们没有生病,然后模型却预测出来我们生病了(真没病,模有病)
TN:我们没有生病,然后模型也没有预测出来我们生病(俩都没病)
1.混淆矩阵的行代表的是实际的类别,列代表预测的类别,里面的数值代表的是所有的实例预测准确和不准确出现次数的总和。
所以模型预测错误就有两种情况:假负和假正。对于不同的场景,我们对模型的要求也不同。
- 对于诊断疾病的模型,**假负(把病人诊断为健康,会错过最佳治疗时间)**比假正情况更严重,所以该模型应该更倾向于找出所有为positive的样本(患病的就诊者);
- 对于垃圾邮件检测模型,**假正(把正常邮件检测为垃圾邮件,会错过重要邮件)**比假负情况更严重,所以该模型应该更倾向于选出所有为negative的样本(正常邮件)。
须知
1.一个完美的分类器只有真正类和真负类,所以它的混淆矩阵只有对象线上面有值,其他的为0(也就是其他的两类上面全是0)
2.咱们学习混淆矩阵的目的是用来**"评估分类器"性能如何的**
2.根据混淆矩阵推出来的比较好的指标
- 精度
- 召回率
- 精度与召回率权衡
- ROC曲线
1.精度
1.是什么
正类预测的准确率,也称为分类器的精度,说白了就是**“我们预测结果为正类(包括真正类和假正类),预测结果为正类中真实结果也为正类(真正类)的占比”**
2.公式
精度 = T P / ( T P + F P ) 精度 = TP / (TP + FP) 精度=TP/(TP+FP)
TP:是真正类的数量