重点！11个重要的机器学习模型评估指标

最新推荐文章于 2024-08-16 15:31:16 发布

「已注销」

最新推荐文章于 2024-08-16 15:31:16 发布

阅读量2.2k

点赞数 4

分类专栏： AI 热点文章文章标签：人工智能机器学习模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/101676475

版权

本文详细介绍了11个用于评估机器学习模型的重要指标，包括混淆矩阵、F1分数、增益图和提升图、K-S图、AUC-ROC曲线、对数损失、基尼系数、一致-不一致比率、均方根误差、均方根对数误差和R方/调整R方。这些指标适用于分类和回归模型，帮助数据科学家在构建模型时选择最佳模型，避免过度拟合，并提高模型在未知数据上的预测性能。

摘要由CSDN通过智能技术生成

全文共8139字，预计学习时长16分钟

构建机器学习模型的想法应基于建设性的反馈原则。你可以构建模型，从指标得到反馈，不断改进，直到达到理想的准确度。评估指标能体现模型的运转情况。评估指标的一个重要作用在于能够区分众多模型的结果。

很多分析师和数据科学家甚至都不愿意去检查其模型的鲁棒性。一旦完成了模型的构建，他们就会急忙将预测值应用到不可见的数据上。这种方法不正确。

我们的目的不能是简单地构建一个预测模型。目的是关于创建和选择一个对样本以外数据也能做到高精度的模型。因此，在计算预测值之前，检查模型的准确性至关重要。

在这个行业中，大家会考虑用不同类型的指标来评估模型。指标的选择完全取决于模型的类型和执行模型的计划。

模型构建完成后，这11个指标将帮助评估模型的准确性。考虑到交叉验证的日益普及和重要性，本文中也提到了它的一些原理。

预测模型的类型

说到预测模型，大家谈论的要么是回归模型（连续输出），要么是分类模型（离散输出或二进制输出）。每种模型中使用的评估指标都不同。

在分类问题中，一般使用两种类型的算法（取决于其创建的输出类型）：

1.类输出：SVM和KNN等算法创建类输出。例如，在二进制分类问题中，输出值将为0或1。但如今，有算法可以将这些类输出转换为概率输出。但是，统计圈并不是很乐意接受这些算法。

2.概率输出：逻辑回归( Logistic Regression )，随机森林( Random Forest )，梯度递增( Gradient Boosting )，Adaboost等算法会产生概率输出。将概率输出转换为类输出只是创建一个阈值概率的问题。

在回归问题中，输出时不会出现这种不一致性。输出本来就是一直连续的，不需要进一步处理。

例证

关于分类模型评估指标的讨论，笔者已在Kaggle平台上对BCI挑战做了预测。问题的解决方案超出了此处讨论的范围。但是，本文引用了训练集的最终预测。通过概率输出预测该问题，假设阈值为0.5的情况下，将概率输出转换为类输出。

1. 混淆矩阵

混淆矩阵是一个N×N矩阵，N是预测的类的数量。针对目前的问题，有N = 2，因此得到一个2×2的矩阵。你需要记住以下这些关于混淆矩阵的定义：

· 准确性：正确预测的结果占总预测值的比重

· 阳性预测值或查准率：预测结果是正例的所有结果中，正确模型预测的比例

· 阴性预测值：预测结果是负例的所有结果中，错误模型预测的比例。

· 敏感度或查全率：在真实值是正例的结果中，正确模型预测的比重。

· 特异度：在真实值是负例的所有结果中，正确模型预测的比重。

目前案例的准确率达到88％。从以上两个表中可以看出，阳性预测值很高，但阴性预测值很低，而敏感度和特异度一样。这主要由选择的阈值所造成，如果降低阈值，两对截然不同的数字将更接近。

通常，大家关注上面定义的指标中的一项。例如，一家制药公司，更关心的是最小错误阳性诊断。因此，他们会更关注高特异度。另一方面，消耗模型会更注重敏感度。混淆矩阵通常仅用于类输出模型。

2. F1分数

在上一节中，讨论了分类问题的查准率和查全率，也强调了在用例中选择查准率和查全率的重要性。如果对于一个用例，想要试图同时获得最佳查准率和查全率呢？F1-Score是分类问题查准率和查全率的调和平均值。其公式如下：

现在，一个显而易见的问题是，为什么采用调和平均值而不是算术平均值呢？这是因为调和平均值可以解决更多极值。通过一个例子来理解这一点。有一个二进制分类模型的结果如下：

查准率：0，查全率：1

这里，如果采用算术平均值，得到的结果是0.5。很明显，上面的结果是一个“傻子”分类器处理的，忽略了输入，仅将其预测的其中一个类作为输出。现在，如果要取调和平均值，得到的结果就会是0，这是准确的，因为这个模型对于所有的目的来说都是无用的。

这看似很简单。然而在有些情况下，数据科学家更关心查准率和查全率的问题。稍稍改变上面的表达式，包含一个可调参数β来实现该目的，得出：

Fbeta衡量模型对用户的有效性，用户对查全率的重

最低0.47元/天解锁文章

「已注销」

关注

4
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄5年

2070: 原创

-: 周排名

-: 总排名

343万+: 访问

: 等级

4万+: 积分

4917: 粉丝

4457: 获赞

1312: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

热点文章 552篇
AI 1079篇
热点文章 559篇
干货文章 39篇
热门文章 1篇
学术报告 11篇
干货文章 69篇
学术报告

最新评论

快换浏览器吧！Google Chrome是最烂的浏览器
小没苯agoe: 赞同！！！edge比chrome快22%，firefox比chrome快16%!
提前返回有好处吗？
温庭筠: 我不使用提前返回, 因为接手别人的代码时确实比较难理解一旦代码达到了维护阶段，新手程序员试图推理逻辑时，多次返回就会大大影响他们的效率（当注释比较分散，代码模糊不清时尤其糟糕）
在Windows系统和Linux系统中，如何打造一个好终端？
全栈小5: 文章结构严谨，每次阅读都能收获知识，感谢博主的分享，期待博主继续更新高质量文章，支持！【如何让windows终端和linux一样好用，博主这篇文章，值得一看】
NLP入门第一步：6种独特的数据标记方式
麦甜守望者: 有中文怎么标注的吗？
海量案例！生成对抗网络（GAN）的18个绝妙应用
PreWisdom: 18 Impressive Applications of Generative Adversarial Networks (GANs) by Jason Brownlee on July 12, 2019 in Generative Adversarial Networks https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ 你知道我要说什么吧，你这完全是把别人的文章简单翻译了一下搬过来了，然后你发原创，真行啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。