[深度之眼机器学习训练营第四期]关于机器学习应用的一些建议

本文探讨了机器学习中的模型评估与选择,强调了训练集和测试集的划分以评估模型性能。通过学习曲线理解方差与偏差,提供了解决过拟合和欠拟合的策略,包括增加训练样例、调整特征集大小、改变正则化参数等。
摘要由CSDN通过智能技术生成

机器学习算法评估

模型评估

在整个机器学习任务的流程中,我们需要在数据集上训练机器学习模型,找到一个比较“好”的假设。但是,有些假设在已知数据集上表现很好,在新数据上的性能却很差,错误率比较高,这也就是我们常说的“过拟合”。那么,我们如何解决这种类型的问题呢?

一般来说,评价机器学习模型的性能,主要看模型在未知数据上的表现。因此,当我们拿到一个数据集以后,不能马上进行模型的训练,而是需要把数据集分割成两部分,其中一部分用于训练,而另一部分则用来评估模型的好坏。其中用于训练的数据称为训练集,用来评估的数据称为测试集。这样,我们就尽可能准确地评价模型的性能。一般而言,训练集占整个数据集的70%,测试集占30%。

模型选择

假设我们有一堆不同阶数的多项式线性回归模型,如何找到在数据集上表现最好的模型呢?我们的方法是在训练集上训练这么一堆不同阶数的多项式模型,然后在未知数据上评价它们的性能,最后选择一个“最好”的模型。这时,我们需要把数据分成训练集,验证集,测试集三个部分。我们在训练集上学习模型参数,在验证集上调整超参数,最后在测试集上评估模型的泛化性能。一般地,训练集、验证集和测试集的比例为60%/20%/20%;当数据量非常大时,可以按照80%/10%/10%的比例划分数据集。通过这种方法,我们就可以选择出合适的模型。

方差与偏差

下面的图片描述了方差和偏差的关系。


image.png假设红色的靶心区域是样本的真实值,蓝点为模型对样本的预测值。当蓝点从靶心逐渐向外移动时,预测效果逐渐变差。很容易看出有两副图中蓝点比较集中,另外两幅中比较分散,它们描述的是方差的两种情况。蓝点较集中意味着方差较小,较分散则意味着方差较大。再从蓝点与红色靶心区域的位置关系,靠近红色靶心的属于偏差较小的情况, 远离靶心的属于偏差较大的情况。


显然,模型的偏差较高,说明此时模型并没有从数据学习到什么东西,模型在训练集和数据集上的表现都很差,模型处于欠拟合状态。当模型的方差较高时,说明模型可以较好地拟合训练数据集,而在验证集和测试集上的性能较差,此时模型处于过拟合状态。我们的目的就是找到一个模型,它在训练集和验证集上的误差都比较低。
image.png
前面我们提到,正则化技术可以用来解决模型的过拟合问题,其中惩罚系数$\lambda
$表示对模型参数的惩罚程度。那么,我们如何选择一个合适的惩罚系数呢?通常,我们有以下选择步骤:

  1. 创建一个惩罚系数备选集合,比如 λ ∈ {
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值