过拟合的原因以及如何解决

如何判断过拟合?

简单来说就是当模型在训练集上的表现效果非常好,并且远好于在测试集上的表现效果,那基本就是过拟合了。如果在训练集上表现都不好,很可能是欠拟合,,,

过拟合的原因?

1. 数据特征过多,而数据量不足。对于回归类的算法而言,特征越多意味着参数数量越多,模型也就越复杂,而相比之下如果数据量不足会导致过拟合,也就是模型复杂度与数据量不匹配。

2. 训练集和测试集的数据特征、分布不够相似,这一点根本原因也是训练集过小,在总体样本中,训练集和测试集只占很小一部分,这就导致很难保证训练集和测试集与总体的数据分布相似,更难保证训练集与测试集分布相似,这样会导致模型充分学习了训练集的特征而过拟合,这样模型的泛化能力肯定是不够的。

3.训练过度。当模型对训练集训练过度,模型充分学习这个数据集上的所有数据特征,这样会对噪声和离群值异常值过分敏感,从而导致过拟合。

如何解决?

1. 针对第一点,可以删去一些无用特征,这样可以减少模型的参数,降低模型复杂度。

2. 扩充数据集。比如某个训练集的数据全部为正数,而理论上数据集可以取到全体实数,并且正负分布相同,那我们可以对数据集取负,对于计算机视觉常见的手段就是对训练集的图像旋转,放缩,剪切等。

3. Early Stopping。针对第三点,当模型的准确度不发生变化的时候及时停止训练,可以有效防止过度训练。

4. 正则化。正则化相当于对模型的优化添加约束条件,可以看作是一个惩罚项,通过添加不同的正则项可以实现不同的效果。

5. dropout。dropout是一种在神经网络中常用的手段来防止模型过拟合,就是以一定的概率屏蔽到一部分神经元使他们在训练中跳过,从而降低模型复杂度。

 

如有错误联系更正。

  • 4
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值