过拟合和欠拟合

图解欠拟合和过拟合

1)横轴为训练样本数量,纵轴为误差

image.png

欠拟合:高偏差

过拟合:高方差

2)横轴为模型复杂度,纵轴为误差

image.png

A:欠拟合;C:过拟合;B:模型正常

3)横轴为正则项系数,纵轴为误差

 

​​image.png​​
降低过拟合的方法

1)重新清洗数据,数据不纯会导致过拟合,此类情况需要重新清洗数据

2)数据增强(增加训练样本数量)

图像:平移、旋转、缩放

利用生成对抗网络(GAN)生成新数据

NLP:利用机器翻译生成新数据

3)降低模型复杂度

神经网络:减少网络层、神经元个数

决策树:降低树的深度、剪枝

4)权值约束(增大正则项系数)

L1 正则化

L2 正则化

4)集成学习

神经网络:Dropout(在训练的时候让神经元以一定的概率不工作)

决策树:随机森林、GBDT

5)提前终止

6)减少迭代次数

7)增大学习率

8)添加噪声数据

降低欠拟合的方法

1)加入新的特征

交叉特征、多项式特征、上下文特征.

深度学习:因子分解机、Deep-Crossing、自编码器

2)增加模型复杂度

线性模型:添加高次项

神经网络:增加网络层数、神经元个数

3)减小正则化项的系数

添加正则化项是为了限制模型的学习能力,减小正则化项的系数则可以放宽这个限制

模型通常更倾向于更大的权重,更大的权重可以使模型更好的拟合数据

 

最后如果转载,麻烦留个本文的链接,因为如果读者或我自己发现文章有错误,我会在这里更正,留个本文的链接,防止我暂时的疏漏耽误了他人宝贵的时间。

 

 

 

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
过拟合欠拟合是机器学习中常见的两个问题,它们都与模型的泛化能力有关。 过拟合(Overfitting)指的是模型在训练数据上表现得很好,但在新的未见过的数据上表现较差。过拟合通常是由于模型过于复杂,过度拟合了训练数据中的噪声和细节,导致对新数据的泛化能力较差。过拟合的特征包括训练集上表现很好但测试集上表现较差,模型参数较多,模型对训练数据中的噪声过于敏感等。 欠拟合(Underfitting)指的是模型无法很好地拟合训练数据,无法捕捉到数据中的关键特征和模式。欠拟合通常是由于模型过于简单或者训练数据量不足导致的,模型无法充分学习到数据的规律。欠拟合的特征包括训练集和测试集上表现都较差,模型无法捕捉到数据中的复杂关系等。 解决过拟合欠拟合问题的方法有很多,以下是一些常见的方法: 1. 增加训练数据量:通过增加更多的训练样本,可以帮助模型更好地学习数据的规律,减少过拟合欠拟合的问题。 2. 简化模型:减少模型的复杂度,可以降低过拟合的风险。可以通过减少模型的参数数量、降低模型的层数或者使用正则化等方法来简化模型。 3. 特征选择:选择对问题有用的特征,去除冗余和无关的特征,可以提高模型的泛化能力。 4. 正则化:通过在损失函数中引入正则化项,限制模型参数的大小,可以减少过拟合的问题。 5. 交叉验证:使用交叉验证来评估模型的性能,选择最优的模型参数和超参数,可以帮助避免过拟合欠拟合

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值