一文详尽系列之模型评估指标

最新推荐文章于 2025-03-19 12:13:51 发布

Datawhale

最新推荐文章于 2025-03-19 12:13:51 发布

阅读量9.9k

点赞数 4

本文链接：https://blog.csdn.net/Datawhale/article/details/103209677

版权

本文详细介绍了模型评估中的重要指标，包括准确率、精确率、召回率、F1值、P-R曲线、ROC曲线及其AUC。还讨论了MSE、RMSE和MAE在回归问题中的应用，以及如何处理离群点。此外，文章提到了离线评估的局限性和假设检验的方法，如T检验和Z检验，并展示了卡方检验在检验变量间关系中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

点击上方“Datawhale”，选择“星标”公众号

第一时间获取价值内容

在机器学习领域通常会根据实际的业务场景拟定相应的不同的业务指标，针对不同机器学习问题如回归、分类、排序，其评估指标也会不同。

准确率、精确率、召回率、F1值

定义

计算

背景：假如有 100 个广告，某用户对 80 个不感兴趣，对其中 20 个感兴趣，目标是找出所有用户感兴趣的广告，现在挑出 40 个，其中 10 个感兴趣的，请问如何评估一下他的工作。

	实际正类	实际负类
预测正类	TP=10	FP=30
预测负类	FN=10	TN=50

通过混淆矩阵，我们可以算出来

优缺点

准确率、精确率、召回率、F1 值主要用于分类场景。

准确率可以理解为预测正确的概率，其缺陷在于：当正负样本比例非常不均衡时，占比大的类别会影响准确率。如异常点检测时：99.9% 的都是非异常点，那我们把所有样本都视为非异常点准确率就会非常高了。

精确率可以理解为预测出的东西有多少是用户感兴趣的，召回率可以理解为用户感兴趣的东西有多少被预测出来了。一般来说精确率和召回率是一对矛盾的度量。为了更好的表征学习器在精确率和召回率的性能度量，我们引入 F1 值。

在个别领域可能我们对精确率和召回率的偏重不同，故我们引入，来表达出对精确率和召回率的不同偏好。

时精确率影响力更大，