机器学习（西瓜书）笔记第二章模型评估与选择

最新推荐文章于 2024-09-14 19:18:15 发布

刘爱然

最新推荐文章于 2024-09-14 19:18:15 发布

阅读量294

点赞数

分类专栏：机器学习西瓜书笔记文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42194139/article/details/104838730

版权

本文详细介绍了模型评估与选择的方法，包括经验误差、过拟合和欠拟合的概念，以及留出法、交叉验证法、自助法等评估方法。同时，讨论了性能度量如错误率、精度、查准率、查全率、F1分数、ROC和AUC等，旨在优化模型的泛化能力。

摘要由CSDN通过智能技术生成

二、模型评估与选择

2.1经验误差与过拟合

错误率：分类错误的样本数占总样本数的比例。

精度：精度=1-错误率。

误差（error）：学习器实际的预测输出与样本的真实输出之间差异。在训练集上的误差称为“训练误差”（training error）或“经验误差”（empirical error），在测试集上的误差称为“泛化误差”（generalization error）。我们的目的是得到泛化误差小的学习器。

过拟合（overfitting）：因为过度训练，导致训练样本的一些自身特点被当做是所有样本的普遍规律，导致泛化能力下降。

欠拟合（underfitting）：对所有样本的普遍规律没有学好。

欠拟合比较容易克服，在神经网络中表现为增加训练层数。过拟合是无法彻底避免的，我们所能做的只是缓解。

在解决某一个问题时，可能会有很多解决的方法，我们首先一定会想到选择泛化能力最好的那个模型，但是我们事先却不知道这个模型的泛化误差是多少，那么我们怎么样来对一个模型进行评估呢？

2.2评估方法

用测试集（testing set）来测试学习器对新样本的判别能力，我们用测试误差（testing error）来对泛化误差进行估计。测试集的数据不能再训练集中出现，下面介绍几种从数据集D中产生训练集S和测试集T的方法。

2.2.1留出法

“留出法”（hold-out）就是将数据集D分成两个互斥的数据集，一个作为训练集S，一个作为测试集

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。