机器学习模型评估指标是用于衡量模型性能和预测准确度的度量标准。不同的评估指标适用于不同类型的问题和任务。
- 均方误差(Mean Squared Error,MSE)是回归问题中常用的评估指标。它计算预测值与真实值之间的差的平方,衡量了模型的预测误差大小。它的值越小表示模型的预测越准确。(类似地,平均绝对误差(Mean Absolute Error,MAE)也适用于回归问题。)
同MSE一样是损失函数的还有:
(1)交叉熵损失(Cross-Entropy Loss):用于分类问题中的二分类或多分类任务。它通过比较预测概率与真实标签的差异来度量模型的性能。交叉熵损失对于分类问题中的概率分布建模非常有效。
(2)对数损失(Log Loss):用于分类问题的一种常见损失函数,特别适用于二分类问题。它基于预测概率的对数与真实标签之间的差异来衡量模型的性能。
- 准确率(Accuracy)是分类问题中最常用的评估指标之一。它衡量模型正确分类的样本数占总样本数的比例。准确率高表示模型分类的准确性较高。
- 精确度(Precision)和召回率(Recall):精确度和召回率是用于评估分类模型性能的重要指标。精确度衡量模型预测为正类的样本中有多少是真正的正类样本,而召回率衡量模型能够正确识别出正类样本的能力。
- 混淆矩阵(Confusion Matrix)是分类问题中常用的评估工具。它将模型的预测结果与真实标签进行对比,以四个指标衡量分类的结果:真正例(True Positive, TP)、真反例(True Negative, TN)、假正例(False Positive, FP)、假反例(False Negative, FN)。混淆矩阵可以计算精确度、召回率、F1分数等评估指标,帮助了解模型的分类性能。
混淆矩阵 | 预测类别 | ||
真实类别 | |||
混淆矩阵(如有150个样本数据, 预测为1,2,3类各为50个) | 预测 | |||
类1 | 类2 | 类3 | ||
真实 | 类1 | 43 | 2 | 0 |
类2 | 5 | 45 | 3 | |
类3 | 2 | 3 | 47 |
- AUC-ROC(Area Under the Receiver Operating Characteristic Curve)是用于二分类问题的评估指标。ROC曲线是以模型的真正例率(True Positive Rate, TPR)为纵轴,假正例率(False Positive Rate, FPR)为横轴绘制的曲线。AUC-ROC则是ROC曲线下的面积,取值范围在0到1之间。AUC-ROC越接近1,表示模型的分类性能越好。