特征较多而数据量较少导致的overfitting

原因:
目标函数为了尽可能的拟合较少的数据,不断复杂多个特征,从而拟合一个比较好(非常好)的函数,在数据内可以很好的预测(几乎百分百)。
过多的参数(特征复杂度)导致函数很复杂,当新数据到来时很难通过该函数得到正确的结果,即在样本外表现不佳,导致过拟合。
相关性比较弱的特征没必要加入进来,在数据量较少的情况下很难学到这些特征与数据的相关关系。这也就是为什么天猫的推荐系统用了上亿维的特征也可以呈现很好的效果(数据量很大)。
因此,当出现过拟合时如果考虑是特征太多导致的,除了减少相关性较弱的特征外,也可以增加数据量来更好的学习这些特征的相关性。或者使用正则化的方式来降低相关性较小的特征的参与度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
训练集过拟合(overfitting)是指机器学习模型在训练数据上表现较好,但在未见过的测试数据上表现较差的现象。训练集过拟合与测试集效果差别的大小可以由多个因素决定。 首先,数据的质量对于训练集过拟合的差别大小起着重要作用。如果训练集中存在噪声、异常值或者数据不平衡等问题,模型可能过分关注这些异常情况而无法在新数据上泛化,导致差别较大。而如果训练集中的数据质量较高、合理平衡,模型则更容易学习到有效的规律,差别可能相对较小。 其次,模型的复杂度也会影响训练集过拟合的差别大小。当模型复杂度适中时,能够更好地捕捉训练数据中的规律和模式,同时又不至于过度拟合。但如果模型过于复杂,例如拥有过多的参数或复杂的结构,可能会过度拟合训练数据,从而导致差别较大。 此外,数据量的大小也会对训练集过拟合的差别产生影响。如果训练集的样本数量较少,容易导致模型在训练阶段将样本的特例当作普遍规律进行学习,从而在新数据上泛化能力弱,差别较大。相反,如果训练集样本数量充足,则模型更有可能学习到更广泛的数据特征,泛化能力可能更强,差别较小。 因此,训练集过拟合的差别大小受数据质量、模型复杂度和数据量等多个因素共同影响。为了避免过拟合,可以采取一些措施,如增加训练数据量、使用正则化方法、进行特征选择等,从而降低训练集与测试集之间的差别。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值