1 混淆矩阵
如果我们用的是一个二分类模型,那么把预测情况和实际情况的所有结果进行两两组合,就会出现如下的混淆矩阵。
其中的核心概念如下,1代表正类、0代表负类:
- TP:若一个实例是正类,但是被预测成为正类,即为真正类(True Postive)
- TN:若一个实例是负类,但是被预测成为负类,即为真负类(True Negative)
- FP:若一个实例是负类,但是被预测成为正类,即为假正类(False Postive)
- FN:若一个实例是正类,但是被预测成为负类,即为假负类(False Negative)
2 准确率
预测正确的结果占总样本的百分比,其公式如下:(TP+TN)/(TP+TN+FP+FN)。
虽然准确率可以判断总的正确率,但是在样本不平衡的情况下,并不能作为很好的指标来衡量结果。举个简单的例子,比如在一个总样本中,正样本占90%,负样本占10%,样本是严重不平衡的。对于这种情况,我们只需要将全部样本预测为正样本即可得到90%的高准确率&#