机器学习-分类模型评估标准

最新推荐文章于 2024-04-16 08:46:11 发布

求知者_123

最新推荐文章于 2024-04-16 08:46:11 发布

阅读量2.9k

点赞数 1

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21840201/article/details/81157145

版权

本文详细介绍了分类模型的评估标准，包括错误率、精度、查准率、查全率、F1-score、ROC曲线、AUC以及log-loss。通过这些指标，可以全面分析模型的性能，例如在二分类任务中，查准率和查全率是关键，而AUC则衡量了模型的整体分类能力。log-loss则用于评估模型预测概率的准确性。

摘要由CSDN通过智能技术生成

对模型的泛化性能进行评估，不仅需要有效可行的实验估计方法，还需要有衡量模型泛化能力的评价标准，这就是性能度量(performance measure)，回归任务最常用的性能度量是"均方误差" (mean squared error)。下面主要介绍分类模型的评估以及在sklearn库中的实现方法。

一、错误率与精度（accuracy）

错误率和精度是分类任务中最常用的两种性能度量，既适用于二分类任务，也适用于多分类任务。错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例。

from sklearn import metrics 
print('模型精度:',metrics.accuracy_score(y_test,y_predict))

二、查准率（precision）、查全率（recall）与F1-score

错误率和精度虽常用，但并不能满足所有任务需求。以西瓜问题为例，假定瓜农拉来一车西瓜，我们用训练好的模型对这些西瓜进行判别，显然，错误率衡量了有多少比例的瓜被判别错误。但是若我们关心的是“挑出的西瓜中有多少比例是好瓜”，或者“所有好瓜中有多少比列被挑了出来”，显然错误率就不能用了，需要使用其他的性能度量。查准率（precision）和查全率（recall）是更为适用于此类需求的性能度量。

对于二分类问题，可将样例根据其真实类别与学习器预测类别的组合划分为真正例(true positive) 、假正例(false positive) 、真反例(true negative) 、假反例(false negativ

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。