过拟合和欠拟合及其解决方法

过拟合是指学习时选择的模型所包含的参数过多,出现对已知数据预测很好,对未知数据预测很差的现象(过拟合表现为高方差);
过拟合产生原因:
1.训练集有噪声
学习算法试图尽可能正确分类训练样本,当噪声数量在训练集中占有相当大的比例时,算法会学习到一个由正常数据与噪声数据共同决定的模型,模型中把噪声的特点错误认为是所有数据具有的一般性质,那么用此模型去预测从正常数据分布上采样的未知数据,就可能达不到理想的泛化效果;
2.训练数据不足
训练数据有限的话,无法体现数据整体的分布。
欠拟合是指学习时选择的模型所包含的参数过少,出现对已知数据预测很差,对未知数据预测也很差的现象(欠拟合表现为高偏差)。
参见我的博客:机器学习算法总结1:统计学习方法概论
在这里插入图片描述
如上图所示,图1即为欠拟合,图3即为过拟合。
1.过拟合解决方法
一般地,过拟合有两种解决方案:一是拓展数据集,二是减低模型复杂度。
(1)正则化
正则化方法是在经验损失之上加入正则化项J(f)(即模型复杂度),用来权衡经验风险和模型复杂度,以期得到经验风险和模型复杂度同时较小的模型。
正则化通过控制模型参数的大小来降低模型复杂度,会保留所有的特征变量。
在这里插入图片描述
常见的正则化方法有:L1正则化、L2正则化(权值衰减)。
L1正则化:基于L1范数,是指权重参数w中各个元素的绝对值之和。
在这里插入图片描述
注意:加入L1正则化后,数据集中对模型贡献不大的特征对应的参数w可以为0,因此L1正则化得出的参数是稀疏的
L2正则化(权重衰减):基于L2范数,是指权重参数w中各个元素的平方和再求平方根。
在这里插入图片描述
(2)减少特征数量
通过特征选择(如:互信息法)的方法减少特征数量。
(3)数据增强(Data Augmentation)
数据增强可以分为,有监督的数据增强和无监督的数据增强方法。
有监督数据增强,即采用预设的数据变换规则,在已有数据的基础上进行数据的扩增:
1)几何变换类:包括翻转(水平翻转、垂直翻转)、旋转、裁剪、变形、缩放等;
2)颜色变换类:包括噪声、模糊、颜色变换、擦除、填充等。
无监督数据增强,即通过模型学习数据的分布,随机生成与训练数据集分布一致的数据:
生成对抗网络(GAN)
数据增强
keras数据增强实例
(4)Dropout
Dropout是深度学习中最常用的控制过拟合的方法,主要用于全连接处,该方法在一定概率上隐式的去除网络中的神经元,具体如下:
在这里插入图片描述
工作流程:
1)随机删除网络中一半的隐藏层的神经元(备份被删除神经元的参数),输入输出神经元个数保持不变;
2)将输入x通过修改后的网络进行前向传播,然后把得到的损失结果通过修改后的网络进行反向传播,使得没有被删除的神经元通过梯度下降法进行更新参数,删除的神经元保持删除前的结果;
3)恢复被删掉的神经元,重复1),2)。
dropout原理解析
dropout详解
(5)早停(Early Stopping)
该方法主要是用在神经网络中的,在神经网络的训练过程中会初始化一组较小的权值参数,此时模型的拟合能力较弱,通过迭代训练来提高模型的拟合能力,随着迭代次数的增大,部分的权值也会不断的增大,如果提前终止迭代可以有效的控制权值参数的大小,从而降低模型的复杂度。
(6)BN(Batch Normalization)
BN算法将每一层的输入值做归一化处理,并且重构归一化之后的数据,确保数据分布不会发生变化。
(7)Bagging和Boosting
Bagging和BoostIng是机器学习中的集成方法,多个模型的组合可以弱化每个模型中异常点的影响,保留模型之间的通性,弱化单个模型的特性。
(8)重新数据清洗
2.欠拟合解决方法
(1)减少正则化参数
(2)增加特征
通过特征组合、泛化、相关性等得到新特征并进行训练。
(3)添加多项式特征
将线性模型通过添加二次项或者三次项使线性模型泛化能力增强。

参考博文:
https://blog.csdn.net/u012197749/article/details/79766317
https://www.cnblogs.com/jiangxinyang/p/9281107.html

  • 4
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值