学习目标:
混淆矩阵,以及ROC曲线是是分类问题的关键,但就身边朋友看来(包括我)也没有弄清楚相关的指标命名情况
例如:
- 灵敏度,特异度,召回率,查全率,查准率
学习内容:
理解各指标的公式来源以及目的
例如:
- 查全率是通过混淆矩阵哪些参数组成
- 理解ROC曲线
学习内容:
1.混淆矩阵
混淆矩阵是分类问题的基石,反映了真实标签和机器学习算法预测结果的组合
分为真正例(标签为正,预测为正),假真例(标签为正,预测为负),假反例(标签为负,预测为正)和真反例(标签为负,预测为负)
2.常见组合
准确率
acc=(TP+TN)/(TP+FP+FN+TN)
精确率=查准率=阳性预测值
NPV=P=TP/(TP+FP)
理解表示为:在模型预测的所有正例中,实际正例预测为正例的概率
阴性预测值
PPV=TN/(FN+TN)
理解表示为:在模型预测的所有负例中,实际负例预测为负例的概率
召回率=查全率=灵敏度=敏感性=真正例率
R=TP/(TP+FN)
理解表示为:在所有标签为正的样本中,模型预测为正的概率
F1值作为同时兼顾查准率和查全率的性能评价指标被定义为其调和平均数
1/F1 = 1/P + 1/R
查准率和查全率可以共同画出P-R曲线
P-R曲线主要用于在不同阈值下观察模型的查准率和查全率之间的权衡关系
特异度=特异性
SP=TN/(TN+FP)
在所有实际负例中,模型能够避免错误预测为正例的比例。
3.ROC曲线
由真正例率和假真例率构成
也就是纵轴是灵敏度,横轴是1-特异度