入门机器学习笔记（一）模型评估与选择

最新推荐文章于 2023-03-20 18:15:21 发布

Skewed_Bin

最新推荐文章于 2023-03-20 18:15:21 发布

阅读量411

点赞数 1

分类专栏：机器学习笔记文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/SkewedMCC/article/details/113810671

版权

本文介绍了机器学习中模型评估的重要概念，如经验误差、过拟合与欠拟合，以及评估方法如测试集、交叉验证和自助法。讨论了性能度量，包括错误率、精度、查准率、查全率、F1分数和ROC曲线，并提到了代价曲线与假设检验在模型选择中的应用。

摘要由CSDN通过智能技术生成

（一）模型评估与选择

1.1 经验误差与过拟合

错误率（error rate）： 分类错误的样本数占样本总数的比例。

精度（accuracy）： 1 - 错误率

误差（error）： 学习器的实际预测输出与样本的真实输出之间的差异称为误差。

训练误差（training error） / 经验误差（empirical error）： 学习器在训练集上的误差。

泛化误差（generalization error）： 学习器在新样本上的误差。

过拟合（overfitting）： 学习器把训练样本学的太好，把训练样本自身的一些特点当做了所有潜在样本都会具有的一般性质，导致泛化性能下降，这种现象在机器学习中称为过拟合。

欠拟合（underfitting）： 与过拟合相反，对训练样本的一般性质尚未学好。
最常见的导致过拟合的因素是学习能力过于强大，而欠拟合通常是由于学习能力低下造成的。

学习能力： 由学习算法和数据内涵共同决定。

机器学习面临的问题通常是NP难甚至更难，而有效的学习算法必然是在多项式时间内运行完成。若可彻底避免过拟合，则通过经验误差最小化就能获得最优解，这就意味着我们构造性的证明了P=NP。因此只要相信P≠NP，过拟合就不可避免。

1.2 评估方法

测试集（testing set）
测试误差（testing error）

通常假设测试样本也是从样本真实分布中独立同分布采样而得。需注意的是，测试集应该尽可能的与训练集互斥。
当我们只有一个包含m个样例的数据集D时，有以下几种常见的做法：留出法、交叉验证法、自助法。

留出法

留出法直接将数据集D划分为两个互斥的部分，其中一部分作为训练集S

最低0.47元/天解锁文章

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。