1.混淆矩阵
混淆矩阵是用来总结一个分类器结果的矩阵。对于k元分类,其实它就是一个k x k的表格,用来记录分类器的预测结果。
例子:
假设某医院需要对10位(编号1到10)密接者进行核酸检验,检验结果如下:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
阳性 | 阴性 | 阴性 | 阴性 | 阴性 | 阳性 | 阳性 | 阴性 | 阴性 | 阴性 |
而真实的结果是:
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
阳性 | 阴性 | 阴性 | 阳性 | 阴性 | 阴性 | 阳性 | 阳性 | 阴性 | 阴性 |
可以看到4号和8号密接者是阳性而检测错误成了阴性,而6号是阴性而检测错误成了阴性,而其余的检测结果都是正确的。
那么我们做如下定义:
- 正确检测出阳性的数量定义为
- 正确检测出阴性的数量定义为
- 错误检测为阳性的数量定义为
- 错误检测为阴性的数量定义为
在本例中
- 正确检测出阳性的密接者是1号和7号,所以
- 正确检测出阴性的密接者是 2号 、3号 、5号 、9号、10号,所以
- 错误检测为阳性的密接者是6号,所以
- 错误检测为阳性的密接者是4号和8号,所以
我们可以把上述 TP TN FP FN列成如下矩阵
而混淆矩阵就是由上述 TP TN FP FN 组成的矩阵
2. 准确率 精确率 召回率
混淆矩阵只计算了个数,我们可以通过计算准确率等指标得到更加直观的结果。
- 准确率(Accuracy)
准确率用于判断正确的结果占观测值的比重
在上述案例中 - 精确率 (Precision)
精确率用于判断在预测值是positive的结果中预测正确的比重
上述案例中 - 召回率(Recall)
召回率用于判断在真实值是positive的结果中预测正确的比重
上述案例中
3. F1分数
在做分类问题时,精确率和召回率通常时此消彼长的,而F1分数兼顾了精确率和召回率,所以是常见的判断指标。