过拟合和解决办法

      在我们训练模型的时候经常会遇到过拟合和欠拟合的问题。我们的模型一开始是欠拟合的,正因为如此,才会有优化的空间,需要不断的调整算法来使得模型的表达能力更强。但是优化到一定程度,就需要解决过拟合问题了。

1、过拟合:学习时选择的模型包含的参数过多,以致于出现这一模型对已知数据预测得很好,对未知数据预测得很差的现象。

     图1.2给出了用多项式去拟合图中的数据点,M是多项式最高次数,图中的另一条曲线为训练集;M=0,M=1,M=3, M=9的多项式拟合的情况,当M=1时,拟合效果很差;当M=9时,多项式曲线通过每一个数据点,训练误差为0,对于给定的训练集来说,效果是这四个图中最好的;但是,原始数据集中本身存在噪声,这个曲线对未知数据拟合往往不是最好的,这就是过拟合现象的发生。
      这也就是说,在模型选择时,不仅要考虑对训练集的预测能力,还要考虑对测试集的预测能力。当M=3时,多项式对训练集拟合的足够好,对测试集拟合的也比较好,模型也比较简单,因此应选M=3。

2、 训练误差和测试误差与模型复杂度的关系。     


     图1.3描述了训练误差和测试误差与模型复杂度的关系,随着模型复杂度的增加,训练误差逐渐减小,并趋向于0;而测试误差会先减小达到最小值时又增大,当模型的复杂度过大时,过拟合现象就会发生。

3、欠拟合:模型没有很好的捕捉到数据特征,不能够很好的拟合数据。


  上述中间的图没有很好的拟合数据,中间的图再加上一个二次项,就能够很好的拟合数据了,如右图所示。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
过拟合欠拟合是机器学习中常见的问题,可以通过以下方法来解决: 过拟合(Overfitting):模型训练集上表现良好,但在测试集或新数据上表现不佳。 1. 数据集扩充:增加更多的训练数据可以减少模型过拟合的风险,通过收集更多样本或者使用数据增强技术(如翻转、旋转、裁剪等)来生成更多的训练样本。 2. 正则化(Regularization):正则化是一种通过约束模型参数来防止过拟合的方法。常见的正则化技术包括L1正则化和L2正则化,它们分别通过参数的绝对值和平方和来惩罚模型复杂度,使得模型更加简单。 3. 特征选择选择最相关的特征来训练模型,减少不相关或冗余特征的影响。可以使用特征选择算法(如相关系数、信息增益等)或者基于模型的特征选择方法(如LASSO回归)来进行特征选择欠拟合(Underfitting):模型无法很好地拟合训练集数据,无法捕捉到数据中的复杂关系。 1. 增加模型复杂度:如果模型太简单,无法拟合数据的复杂关系,可以尝试增加模型复杂度,如增加神经网络的层数或神经元的个数,增加决策树的深度等。 2. 减少正则化:如果使用了正则化方法(如L1正则化或L2正则化),可以尝试减少正则化的程度,以降低对模型的约束,使其更加灵活。 3. 增加特征数量:如果模型无法捕捉到特征之间的非线性关系,可以尝试添加更多的特征,如特征的高次项、交互项等。 需要根据具体情况综合考虑这些方法,并进行实验调优,以找到最适合的解决办法

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值