机器学习01-过拟合和Regularization(正则化)

东阳的学习记录,坚持就是胜利!

过拟合

首先看一个正常的拟合。y = b + w * x
在这里插入图片描述
更改模型, 使用二次回归, y = b + w 1 ∙ x + w 2 ∙ x 2 y = b + w _1 ∙ x + w 2 ∙ x^ 2 y=b+w1x+w2x2
在这里插入图片描述
逐渐增大, y = b + w 1 ∙ x + w 2 ∙ ( x 2 + w 3 ∙ x 3 + w 4 ∙ x 4 + w 5 ∙ x 5 y = b + w _1 ∙ x + w_ 2 ∙ (x ^ 2+ w _3 ∙x^3 + w 4 ∙ x^ 4 + w 5 ∙ x^5 y=b+w1x+w2(x2+w3x3+w4x4+w5x5
在这里插入图片描述

不同模型在训练集和测试集上的表现

可以看到, 当改变回归模型的阶数时,在训练集上的变现编号,但是在测试集上的表现先变好,后变差。称这种现象叫做过拟合。
在这里插入图片描述

过拟合的理解

之所以存在过拟合的可能,是因为选择模型的标准和评价模型的标准是不一致的。举例来说,选择模型时往往是选取在训练数据上表现最好的模型;但评价模型时则是观察模型在训练过程中不可见数据上的表现。当模型尝试“记住”训练数据而非从训练数据中学习规律时,就可能发生过拟合。一般来说,当参数的自由度或模型结构的复杂度超过数据所包含信息内容时,拟合后的模型可能使用任意多的参数,这会降低或破坏模型泛化的能力。

如图中所示,过拟合虽然包含了所需要的内容,但是也包含了一些无用的,在原来数据中所不能体现出来的东西。不够精确。
在这里插入图片描述

如何防止过拟合

正则化

我们在损失函数中,添加上如下图红色框的内容。这个行为就是正则化。正则化的目的是找到一个更平滑的曲线来拟合数据,这样更不容易受到噪声的影响。(正则化不用管bias)
在这里插入图片描述

正则化的理解

加入正则化后,我们可以得到一个参数值( w i w_i wi)更加接近于0的训练结果,为什么接近于0的参数可以防止过拟合呢。
w i w_i wi接近于0,表示该函数曲线更平滑,更不容易受到noise的影响,这样就能够保证一个比较好的结果。

加入正则化之后的模型表现

在这里插入图片描述

  • 在一定范围内增大λ,可以增强模型的表现。
  • 但是λ不能过大,这样会使得曲线过于平滑,而导致欠拟合。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东阳z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值