第5关:拟合问题

任务描述

本关任务:通过对机器学习中出现的拟合问题的学习,完成相应的选择题。

相关知识

为了完成本关任务,你需要掌握:

  1. 过拟合;
  2. 欠拟合;
  3. 一般解决方法。

过拟合

过拟合(Over-Fitting)是指针对训练数据,模型过度适配的情况。由于过度的学习模型中的细节和噪声,很容易导致在新的数据上表现较差, 这也意味着训练集中的数据噪声被当作某种特征被模型给学习了,从而导致模型的泛化能力变弱。 过拟合现象在无参数非线性的模型中发生的可能性较高, 例如在决策树进行训练的过程中,很容易过拟合训练,因此决策树对于解决过拟合问题往往采用剪枝的方式,目的也是移除一些细节对特征的影响。 对于深度神经网络而言,由于它的特征表达能力比较强,因此比较容易产生过拟合的问题,此外大量的参数训练也会导致训练周期加长 。

欠拟合

欠拟合(Under-Fitting)表示的是模型在训练集和测试集中的表现效果均不佳,本质是获取的数据特征太少,不能有效地拟合数据。欠拟合是模型训练过程中常见的问题,欠拟合相对于过拟合问题,很容易被发现和改进,改进的方法包括:

  1. 更换机器学习模型,有可能模型适用的场景与当前场景不 匹配 ;
  2. 新增数据的其他特征 。 新增特征项可以有效避免欠拟合问题 ;
  3. 减少正则化参数 。 正则化本身是用于解决过拟合问题,但是当模型出现了欠拟合时,可以通过减少正则化参数避免欠拟合问题。

讲完过拟合和欠拟合的定义,我们用图来直观的感受以下过拟合与欠拟合:

  • 1为回归任务下的过拟合与欠拟合:


    图1 回归任务

     

从左至右分别为欠拟合、好的拟合、过拟合。

  • 2为分类任务下的过拟合与欠拟合:


    图2 分类任务

     

从左至右分别为欠拟合、好的拟合、过拟合。

一般解决方法

导致过拟合问题的根本原因是特征维度过多,因此解决过拟合问题可以从以下几个方面进行思考:

  1. 再次清洗数据。清洗的目的是避免数据不纯导致的过拟合问题 ;
  2. 调整训练集的量。当训练集的量过小时,容易导致学习特征不够集中。对于深度神经网络,一般都需要大量的训练集才能获得相对比较理想的效果;
  3. 降低特征维度 。可以通过无监督学习筛选特征或者人工干预某些特征。

从工程而言,稀疏规则化是解决过拟合问题的有效方法,常见的稀疏化的方式包括正则化、Dropout 等方法,在实际场景中应用非常广泛。

作答要求

根据相关知识,按照要求完成右侧选择题任务。作答完毕,通过点击“测评”,可以验证答案的正确性。

参考资料

【1】拟合问题


开始你的任务吧,祝你成功!

  • 1、下列说法错误的是:    C

    A、拟合问题分为过拟合和欠拟合问题。
    B、过拟合是指针对训练数据,模型过度适配的情况。
    C、
    D、更换机器学习模型或新增数据的其他特征可以一定程度避免欠拟合问题的发生。
  • 2、下列说法错误的是:    C

    A、过拟合会导致模型的泛化能力减弱。
    B、相比于欠拟合,过拟合更难被解决。
    C、
    D、Dropout 机制是常见的稀疏规则化方法。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

畜牧当道

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值