评估指标用于衡量统计或机器学习模型的质量。评估机器学习模型或算法对于任何项目都是必不可少的。有许多不同类型的评估指标可用于测试模型。这些包括分类准确率(classification accuracy)、对数损失(logarithmic loss)、混淆矩阵(confusion matrix)等。分类准确率是正确预测的数量与输入样本总数的比率,这通常是我们在使用术语准确性时所指的。对数损失(logarithmic loss,也写作 log loss),通过惩罚错误的分类而起作用。混淆矩阵给出了一个矩阵作为输出,并描述了模型的完整性能。还可以使用其他尚未列出的评估指标。评估指标可以使用从这些评估指标提取的一个组合来测试模型或算法。
为什么这个有用?
使用多个评估指标来评估您的模型是非常重要的。这是因为使用一个评估度量的一个度量,一个模型可能表现良好,但是使用另一个评估度量的另一个度量可能执行得很差。使用评估指标对于确保模型正确和最佳地运行至关重要。
分类准确率(classification accuracy)
是指我们的模型预测正确的样本占所有参与预测的样本的比例。
正式点说,分类准确率的定义如下:
对于二分类问题来说,根据准确率的定义可得:
TP:真正例
TN:真正例
FP:假负例
FN:假负例
对数损失(logarithmic loss)
也称LogLoss,用于确定模型的预测值与实际值的接近程度, 它输出接近的概率得分,用于分类模型的评估。
下面是维基百科的LogLoss公式。对数据集中的每个观测值进行计算,然后取平均值。
下面你能看到两个对数损失的例子
第一个例子描述了一个糟糕的预测,当预测值和实际值之间有很大的差异时,这将导致一个很大的LogLoss。
第二个例子显示了一个接近实际概率的良好预测。这会导致较低的LogLoss。
预测值和实际值完全一样,LogLoss=0
混淆矩阵(confusion matrix)
在基于深度学习的分类识别领域中,经常采用统计学中的混淆矩阵(confusion matrix)来评价分类器的性能。
它是一种特定的二维矩阵:
- 列代表预测的类别;行代表实际的类别。
- 对角线上的值表示预测正确的数量/比例;非对角线元素是预测错误的部分。
混淆矩阵的对角线值越高越好,表明许多正确的预测。
参考:
https://scikit-learn.org/stable/auto_examples/model_selection/plot_confusion_matrix.html
https://en.wikipedia.org/wiki/Confusion_matrix