2、混淆矩阵
3、准确度
准确度通常用来比较模型,因为它告诉我们正确分类的比例。
4、精度
精度主要关注的是数据集中预测 为“阳性”的数据。通过基于精度的优化,你将能确定与误报假阳性相比,你是否在预测正例的工作上做的很好(减少误报假阳性)。
精度 = 真阳性 / (真阳性 + 假阳性)
5、召回率
召回率主要关注数据集中的实际 “阳性”的数据。通过基于召回率的优化,你将能确定你是否在预测正例的工作上做的很好(减少漏报假阴性),而不必太考虑误报假阳性。如果你想在实际 ‘负例’上执行类似召回率的计算,这叫做特异性(specificity)。
1000/(1000+200)
6、F1分数
7、F-beta分数
你可以看到 β\betaβ 参数控制了精度在 F 分数中的权重,它允许同时考虑精度和召回率。最常见的 beta 值是1, 因为这是精度和召回率的调和平均
8、ROC曲线
通过为我们的分类指标设置不同的阈值,我们可以测量曲线下的面积(曲线称为 ROC 曲线)。与上面的其他指标类似,当 AUC 比较高(接近1)时,这表明我们的模型比指标接近 0 时要好。
曲线下的面积代表了模型的好坏,越好的模型,越接近1