回归分析中产生过拟合的原因

例如以住房面积为自变量的函数来预测房价

1、如图:

在这里插入图片描述
    使用一次函数   θ 0 + θ 1 x   ~\theta_0+\theta_1x~  θ0+θ1x  来预测时,从图中可以看出这不是一个很好的模型,没有很好的拟合训练集,导致出现"欠拟合"问题。

2、如图:

在这里插入图片描述
    使用二次函数   θ 0 + θ 1 x + θ 2 x 2   ~\theta_0+\theta_1x+\theta_2x^2~  θ0+θ1x+θ2x2 来拟合数据集,此时的拟合效果很好,没有出现问题。

3、如图:

在这里插入图片描述
    本次使用四次函数   θ 0 + θ 1 x + θ 2 x 2   + θ 3 x 3 + θ 4 x 4 ~\theta_0+\theta_1x+\theta_2x^2~+\theta_3x^3+\theta_4x^4  θ0+θ1x+θ2x2 +θ3x3+θ4x4来拟合数据集,此时可以得到一条如图中所示的曲线,这似乎很好的拟合了训练集,它通过了所有的数据点,但这其实并不是一个好的预测模型,这就是"过拟合"问题。

    如果我们拟合一个高阶多项式,那这个假设函数能拟合几乎所有的数据,这就面临函数太过庞大,变量太多的问题,此时我们没有足够的数据来约束它,来获得一个好的假设函数。

    过拟合问题会在变量过多的时候出现,而损失函数可能非常接近于0,它想方设法的拟合训练集中的所有数据,导致它无法泛化到新样本中去,不能预测样本的价格。

解决过拟合问题有两种方法:

    1、尽量减少选取变量的数量,通过人工选择应该留下的特征变量,而模型选择算法就可以自动选择哪些特征变量要保留,哪些要舍弃。
    优点:效率很好
    缺点:舍弃一部分特征变量的同时也舍弃了关于问题的一部分信息。

    2、正则化惩罚,保留了所有的特征变量,但减少了量级或参数    θ j ~~\theta_j   θj的大小。
    优点:效果非常好,使用了所有的特征变量,每个特征变量都能对预测的 y 值产生一点影响。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值