准确率(Accuracy)
查准率(Precision)
查全率(Recall)
假阳率(False Positive Rate, FPR)
F1分数(F1 Score)
AUC-ROC 曲线(Area Under the ROC Curve)
AUC-PR 曲线(Area Under the Precision-Recall Curve)
特异度(Specificity)
真正负率(True Negative Rate, TNR)
平衡精度(Balanced Accuracy)
平均查全率(Recall)
MCC(Matthews Correlation Coefficient)
误差率(Error Rate)
F2分数(F2 Score)
平均绝对误差(Mean Absolute Error, MAE)
均方误差(Mean Squared Error, MSE)
均方根误差(Root Mean Squared Error, RMSE)
R²分数(R-Squared, Coefficient of Determination)
调整后的R²分数(Adjusted R-Squared)
信息增益(Information Gain)
基尼不纯度(Gini Impurity)
对数损失(Logarithmic Loss, Log Loss)
平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)
卡帕统计量(Cohen's Kappa)
熵(Entropy)
集成学习评估指标(例如Bagging, Boosting)
最小描述长度(Minimum Description Length, MDL)
贝叶斯信息准则(Bayesian Information Criterion, BIC)
赤池信息准则(Akaike Information Criterion, AIC)
平均绝对误差百分比(Median Absolute Error, MedAE)
前五精度(Top-5 Accuracy)
每类平均精度(Mean Class Accuracy)
合并指标(比如 Fβ 分数)
  • 1.
  • 2.
  • 3.
  • 4.
  • 5.
  • 6.
  • 7.
  • 8.
  • 9.
  • 10.
  • 11.
  • 12.
  • 13.
  • 14.
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
  • 21.
  • 22.
  • 23.
  • 24.
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
  • 31.
  • 32.
  • 33.


准确率(Accuracy)

含义:模型预测正确的样本数占总样本数的比例。 应用场景:用于平衡数据集的分类问题。 缺陷:在类别不平衡时,准确率可能会误导。比如,90%的样本都是负类,即使模型只预测负类,准确率也很高。 与其它指标的差异:不像精确率和召回率,它不区分正类和负类。

查准率(Precision)

含义:被预测为正类的样本中真正是正类的比例。 应用场景:当关注假阳性(错误地标记为正类)时,如垃圾邮件检测。 缺陷:不考虑假阴性。 与其它指标的差异:与召回率的权衡关系(高精度通常低召回,反之亦然)。

查全率(Recall)

含义:正类样本中被正确预测为正类的比例。 应用场景:当关注假阴性(漏报)时,如疾病检测。 缺陷:不考虑假阳性。 与其它指标的差异:与精确率互补,强调捕获所有正类样本。

假阳率(False Positive Rate, FPR)

含义:负类样本中被错误预测为正类的比例。 应用场景:评估模型区分正负类的能力,如欺诈检测。 缺陷:单独使用意义有限,常与ROC曲线结合。 与其它指标的差异:与特异度互为补数。

F1分数(F1 Score)

含义:精确率和召回率的调和平均数。 应用场景:需要平衡精确率和召回率时,如分类问题。 缺陷:不反映假阳性率。 与其它指标的差异:综合了精确率和召回率,适用于不平衡数据集。

AUC-ROC 曲线(Area Under the ROC Curve)

含义:ROC曲线下面积,衡量模型区分正负类的能力。 应用场景:综合评价二分类模型,如诊断测试。 缺陷:在极度不平衡的数据集上效果较差。 与其它指标的差异:结合了不同阈值下的FPR和TPR。

AUC-PR 曲线(Area Under the Precision-Recall Curve)

含义:PR曲线下面积,衡量模型在不同阈值下的精确率和召回率。 应用场景:正类样本稀少时,如疾病检测。 缺陷:在均衡数据集上效果不明显。 与其它指标的差异:对不平衡数据集更敏感。

特异度(Specificity)

含义:负类样本中被正确预测为负类的比例。 应用场景:关注假阳性时,如癌症筛查。 缺陷:不考虑假阴性。 与其它指标的差异:与召回率互为补数。

真正负率(True Negative Rate, TNR)

含义:与特异度相同,负类样本中被正确预测为负类的比例。 应用场景:同特异度。 缺陷:同特异度。 与其它指标的差异:同特异度。

平衡精度(Balanced Accuracy)

含义:正类和负类的召回率的平均值。 应用场景:处理类别不平衡的数据集。 缺陷:可能会受到极端值的影响。 与其它指标的差异:比普通准确率更适合不平衡数据。

平均查全率(Mean Recall)

含义:各类别召回率的平均值。 应用场景:多分类问题中,衡量模型对各类别的识别能力。 缺陷:不考虑类别的不平衡。 与其它指标的差异:适用于多分类问题。

MCC(Matthews Correlation Coefficient)

含义:衡量分类模型预测结果与真实值之间的相关性。 应用场景:处理不平衡数据集,全面评价模型性能。 缺陷:计算复杂。 与其它指标的差异:考虑了所有四种混淆矩阵值(TP, TN, FP, FN)。

误差率(Error Rate)

含义:模型预测错误的样本数占总样本数的比例。 应用场景:评价模型整体性能。 缺陷:与准确率相反,但可能误导。 与其它指标的差异:与准确率互为补数。

F2分数(F2 Score)

含义:召回率比精确率更重要时,F1分数的变种。 应用场景:更关注捕获所有正类样本时。 缺陷:不平衡时可能误导。 与其它指标的差异:比F1分数更强调召回率。

平均绝对误差(Mean Absolute Error, MAE)

含义:预测值与真实值之间绝对误差的平均值。 应用场景:回归问题,评价预测误差。 缺陷:对异常值不敏感。 与其它指标的差异:比MSE更直观。

均方误差(Mean Squared Error, MSE)

含义:预测值与真实值之间误差的平方平均值。 应用场景:回归问题,评价预测误差。 缺陷:对异常值敏感。 与其它指标的差异:比MAE更强调大误差。

均方根误差(Root Mean Squared Error, RMSE)

含义:均方误差的平方根。 应用场景:回归问题,评价预测误差。 缺陷:同MSE。 与其它指标的差异:比MSE更直观。

R²分数(R-Squared, Coefficient of Determination)

含义:解释变量对因变量的解释程度。 应用场景:回归问题,评价模型的拟合度。 缺陷:不适用于非线性模型。 与其它指标的差异:强调解释能力。

调整后的R²分数(Adjusted R-Squared)

含义:调整R²分数以考虑模型复杂度。 应用场景:多变量回归,防止过拟合。 缺陷:计算复杂。 与其它指标的差异:比R²分数更稳健。

信息增益(Information Gain)

含义:特征选择中,用于衡量某特征对目标变量的不确定性减少的程度。 应用场景:决策树构建。 缺陷:偏好值多的特征。 与其它指标的差异:用于特征选择。

基尼不纯度(Gini Impurity)

含义:分类模型中,衡量节点的不纯度。 应用场景:决策树构建。 缺陷:对类别不平衡敏感。 与其它指标的差异:与信息增益互补。

对数损失(Logarithmic Loss, Log Loss)

含义:预测概率与真实标签之间的对数损失。 应用场景:分类问题,评价模型预测概率的准确性。 缺陷:对概率分布敏感。 与其它指标的差异:比准确率更细致。

平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)

含义:预测误差占真实值的百分比的平均值。 应用场景:回归问题,评价相对误差。 缺陷:对零值敏感。 与其它指标的差异:衡量相对误差。

卡帕统计量(Cohen's Kappa)

含义:分类问题中,考虑随机猜测的准确度。 应用场景:多分类问题,评价分类一致性。 缺陷:计算复杂。 与其它指标的差异:比准确率更客观。

熵(Entropy)

含义:衡量系统的混乱程度。 应用场景:特征选择,信息论。 缺陷:计算复杂。 与其它指标的差异:信息增益的基础。

集成学习评估指标(例如Bagging, Boosting)

含义:评估集成学习模型的性能。 应用场景:综合多个模型,提升性能。 缺陷:计算复杂。 与其它指标的差异:更适合

复杂问题。

最小描述长度(Minimum Description Length, MDL)

含义:模型的复杂度和数据拟合误差的综合评估。 应用场景:模型选择,防止过拟合。 缺陷:计算复杂。 与其它指标的差异:平衡复杂度与误差。

贝叶斯信息准则(Bayesian Information Criterion, BIC)

含义:模型选择中的评估标准,考虑模型复杂度和拟合度。 应用场景:选择合适的回归模型。 缺陷:对小数据集不敏感。 与其它指标的差异:比AIC更严苛。

赤池信息准则(Akaike Information Criterion, AIC)

含义:评估模型质量,考虑拟合度和复杂度。 应用场景:选择回归模型。 缺陷:可能过度拟合。 与其它指标的差异:比BIC更宽松。

平均绝对误差百分比(Median Absolute Error, MedAE)

含义:预测误差的中位数。 应用场景:回归问题,评价稳健性。 缺陷:对异常值不敏感。 与其它指标的差异:比MAE更稳健。

前五精度(Top-5 Accuracy)

含义:前五个预测中至少有一个是正确的比例。 应用场景:多分类问题,如图像分类。 缺陷:无法区分预测顺序。 与其它指标的差异:比准确率更宽松。

每类平均精度(Mean Class Accuracy)

含义:各类别准确率的平均值。 应用场景:多分类问题,关注各类别表现。 缺陷:不考虑类别不平衡。 与其它指标的差异:比整体准确率更公平。

合并指标(比如 Fβ 分数)

含义:调整精确率和召回率的权重,β值决定权重比例。 应用场景:根据需求调整精确率和召回率的平衡。 缺陷:需要手动选择β值。 与其它指标的差异:比F1分数更灵活。

这些指标各自有其优缺点,具体应用需根据问题特点选择合适的指标。