准确率(Accuracy)
含义:模型预测正确的样本数占总样本数的比例。 应用场景:用于平衡数据集的分类问题。 缺陷:在类别不平衡时,准确率可能会误导。比如,90%的样本都是负类,即使模型只预测负类,准确率也很高。 与其它指标的差异:不像精确率和召回率,它不区分正类和负类。
查准率(Precision)
含义:被预测为正类的样本中真正是正类的比例。 应用场景:当关注假阳性(错误地标记为正类)时,如垃圾邮件检测。 缺陷:不考虑假阴性。 与其它指标的差异:与召回率的权衡关系(高精度通常低召回,反之亦然)。
查全率(Recall)
含义:正类样本中被正确预测为正类的比例。 应用场景:当关注假阴性(漏报)时,如疾病检测。 缺陷:不考虑假阳性。 与其它指标的差异:与精确率互补,强调捕获所有正类样本。
假阳率(False Positive Rate, FPR)
含义:负类样本中被错误预测为正类的比例。 应用场景:评估模型区分正负类的能力,如欺诈检测。 缺陷:单独使用意义有限,常与ROC曲线结合。 与其它指标的差异:与特异度互为补数。
F1分数(F1 Score)
含义:精确率和召回率的调和平均数。 应用场景:需要平衡精确率和召回率时,如分类问题。 缺陷:不反映假阳性率。 与其它指标的差异:综合了精确率和召回率,适用于不平衡数据集。
AUC-ROC 曲线(Area Under the ROC Curve)
含义:ROC曲线下面积,衡量模型区分正负类的能力。 应用场景:综合评价二分类模型,如诊断测试。 缺陷:在极度不平衡的数据集上效果较差。 与其它指标的差异:结合了不同阈值下的FPR和TPR。
AUC-PR 曲线(Area Under the Precision-Recall Curve)
含义:PR曲线下面积,衡量模型在不同阈值下的精确率和召回率。 应用场景:正类样本稀少时,如疾病检测。 缺陷:在均衡数据集上效果不明显。 与其它指标的差异:对不平衡数据集更敏感。
特异度(Specificity)
含义:负类样本中被正确预测为负类的比例。 应用场景:关注假阳性时,如癌症筛查。 缺陷:不考虑假阴性。 与其它指标的差异:与召回率互为补数。
真正负率(True Negative Rate, TNR)
含义:与特异度相同,负类样本中被正确预测为负类的比例。 应用场景:同特异度。 缺陷:同特异度。 与其它指标的差异:同特异度。
平衡精度(Balanced Accuracy)
含义:正类和负类的召回率的平均值。 应用场景:处理类别不平衡的数据集。 缺陷:可能会受到极端值的影响。 与其它指标的差异:比普通准确率更适合不平衡数据。
平均查全率(Mean Recall)
含义:各类别召回率的平均值。 应用场景:多分类问题中,衡量模型对各类别的识别能力。 缺陷:不考虑类别的不平衡。 与其它指标的差异:适用于多分类问题。
MCC(Matthews Correlation Coefficient)
含义:衡量分类模型预测结果与真实值之间的相关性。 应用场景:处理不平衡数据集,全面评价模型性能。 缺陷:计算复杂。 与其它指标的差异:考虑了所有四种混淆矩阵值(TP, TN, FP, FN)。
误差率(Error Rate)
含义:模型预测错误的样本数占总样本数的比例。 应用场景:评价模型整体性能。 缺陷:与准确率相反,但可能误导。 与其它指标的差异:与准确率互为补数。
F2分数(F2 Score)
含义:召回率比精确率更重要时,F1分数的变种。 应用场景:更关注捕获所有正类样本时。 缺陷:不平衡时可能误导。 与其它指标的差异:比F1分数更强调召回率。
平均绝对误差(Mean Absolute Error, MAE)
含义:预测值与真实值之间绝对误差的平均值。 应用场景:回归问题,评价预测误差。 缺陷:对异常值不敏感。 与其它指标的差异:比MSE更直观。
均方误差(Mean Squared Error, MSE)
含义:预测值与真实值之间误差的平方平均值。 应用场景:回归问题,评价预测误差。 缺陷:对异常值敏感。 与其它指标的差异:比MAE更强调大误差。
均方根误差(Root Mean Squared Error, RMSE)
含义:均方误差的平方根。 应用场景:回归问题,评价预测误差。 缺陷:同MSE。 与其它指标的差异:比MSE更直观。
R²分数(R-Squared, Coefficient of Determination)
含义:解释变量对因变量的解释程度。 应用场景:回归问题,评价模型的拟合度。 缺陷:不适用于非线性模型。 与其它指标的差异:强调解释能力。
调整后的R²分数(Adjusted R-Squared)
含义:调整R²分数以考虑模型复杂度。 应用场景:多变量回归,防止过拟合。 缺陷:计算复杂。 与其它指标的差异:比R²分数更稳健。
信息增益(Information Gain)
含义:特征选择中,用于衡量某特征对目标变量的不确定性减少的程度。 应用场景:决策树构建。 缺陷:偏好值多的特征。 与其它指标的差异:用于特征选择。
基尼不纯度(Gini Impurity)
含义:分类模型中,衡量节点的不纯度。 应用场景:决策树构建。 缺陷:对类别不平衡敏感。 与其它指标的差异:与信息增益互补。
对数损失(Logarithmic Loss, Log Loss)
含义:预测概率与真实标签之间的对数损失。 应用场景:分类问题,评价模型预测概率的准确性。 缺陷:对概率分布敏感。 与其它指标的差异:比准确率更细致。
平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)
含义:预测误差占真实值的百分比的平均值。 应用场景:回归问题,评价相对误差。 缺陷:对零值敏感。 与其它指标的差异:衡量相对误差。
卡帕统计量(Cohen's Kappa)
含义:分类问题中,考虑随机猜测的准确度。 应用场景:多分类问题,评价分类一致性。 缺陷:计算复杂。 与其它指标的差异:比准确率更客观。
熵(Entropy)
含义:衡量系统的混乱程度。 应用场景:特征选择,信息论。 缺陷:计算复杂。 与其它指标的差异:信息增益的基础。
集成学习评估指标(例如Bagging, Boosting)
含义:评估集成学习模型的性能。 应用场景:综合多个模型,提升性能。 缺陷:计算复杂。 与其它指标的差异:更适合
复杂问题。
最小描述长度(Minimum Description Length, MDL)
含义:模型的复杂度和数据拟合误差的综合评估。 应用场景:模型选择,防止过拟合。 缺陷:计算复杂。 与其它指标的差异:平衡复杂度与误差。
贝叶斯信息准则(Bayesian Information Criterion, BIC)
含义:模型选择中的评估标准,考虑模型复杂度和拟合度。 应用场景:选择合适的回归模型。 缺陷:对小数据集不敏感。 与其它指标的差异:比AIC更严苛。
赤池信息准则(Akaike Information Criterion, AIC)
含义:评估模型质量,考虑拟合度和复杂度。 应用场景:选择回归模型。 缺陷:可能过度拟合。 与其它指标的差异:比BIC更宽松。
平均绝对误差百分比(Median Absolute Error, MedAE)
含义:预测误差的中位数。 应用场景:回归问题,评价稳健性。 缺陷:对异常值不敏感。 与其它指标的差异:比MAE更稳健。
前五精度(Top-5 Accuracy)
含义:前五个预测中至少有一个是正确的比例。 应用场景:多分类问题,如图像分类。 缺陷:无法区分预测顺序。 与其它指标的差异:比准确率更宽松。
每类平均精度(Mean Class Accuracy)
含义:各类别准确率的平均值。 应用场景:多分类问题,关注各类别表现。 缺陷:不考虑类别不平衡。 与其它指标的差异:比整体准确率更公平。
合并指标(比如 Fβ 分数)
含义:调整精确率和召回率的权重,β值决定权重比例。 应用场景:根据需求调整精确率和召回率的平衡。 缺陷:需要手动选择β值。 与其它指标的差异:比F1分数更灵活。
这些指标各自有其优缺点,具体应用需根据问题特点选择合适的指标。
919

被折叠的 条评论
为什么被折叠?



