第二章——模型评估与选择 Part 1

最新推荐文章于 2024-05-06 19:00:00 发布

理论上是人

最新推荐文章于 2024-05-06 19:00:00 发布

阅读量193

点赞数

分类专栏：小白读西瓜书系列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39800127/article/details/81255744

版权

小白读西瓜书系列专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本章节继续介绍机器学习的一些基础性的，原则性的概念。我认为，本章节作者想要交给大家的，是一把能够衡量模型好坏的尺子。

当学习一个新的东西时，我喜欢先从一定的高度看个全景。所以我们先坐上电梯到18楼来看一下。

首先，当我们站在全局的观点上，我们希望得到什么样的模型？

答案是：泛化误差小的模型，在新样本上表现好的模型。

这一点其实非常好理解，我们就拿学校里的考试作比方。平时课后练习做的好，并不一定考试分数就好。而我们的表现，就是由考试的分数决定的。

在机器学习中，平时的课后练习，就是我们的训练集（训练数据），而考卷就是我们的测试集（测试数据）。学习过程中，我们能提前知道考卷上的题目吗？显然不行，在机器学习中也是一样，我们是不可能，也不应该让测试集参与到训练过程中。那我们怎么样才能得到好的成绩呢？对，就是“刷题”。所谓的刷题，就是通过不断的学习，努力使经验误差（训练误差）最小。

前面我们也提到了一个“假象”，即平时分数好，考试就很差。在机器学习中，这种情况很可能就是由“过拟合”引起的。过拟合（overfitting)是机器学习的关键障碍，它的表现形式就是训练分数高，测试分数低，这说明这个模型泛化性能不好。过拟合怎么来的呢？常见的原因之一，是模型太复杂了，把那些不太一般的特征都给学会了，结果模型在训练过程中学会的是数据本身的样子。这有点像是所谓的“死读书”，看起来题做的很好，换个问法就不会了。

与过拟合相对应的，是欠拟合。欠拟合说明模型的学习能力不够。比如，把所有绿色的东西都认作是树叶，那就是欠拟合，学习努力不够；相反，认为所有绿色的、尖尖的且锯齿状的才叫树叶，这就是过拟合。

理论上是人

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。