过拟合问题总结

11.11 记
最近跑实验模型遇到了训练精度很高,验证精度很低的情况,搜集资料对解决方案进行了整理。

导致过拟合的原因:

  • 模型复杂度过高
  • 训练数据过少
  • 数据噪声较大

利用交叉验证避免模型过拟合

  • 重新清洗数据(删除稀疏矩阵、对噪声数据进行删除/替换)
  • 重新采样(改变采样方法…
  • 增加训练数据
  • 利用交叉验证训练模型
  • 重新筛选特征
  • 降低模型复杂度(添加正则项:L1、L2)
  • dropout(让神经元一定概率不工作)

交叉验证的作用:

  1. 对模型的性能进行评估。
    通过一次划分样本对模型进行训练和测试时,由于样本划分的偶然性,会导致我们对模型的评估不准确。因此,可以采用交叉验证对模型进行评估(一般采用5折或10折),以 n 折交叉验证结果的均值,作为模型的性能评估。
  2. 避免过拟合
    假如当我们进行10折交叉验证时,训练了10次,得到了10个模型,每个模型的参数也是不同的,那么我们究竟用哪个模型作为我们最终的模型呢?答案是:一个都不用!我们要利用全量数据重新训练出一个最终模型!

数据量对模型过拟合欠拟合的影响

  • 处理相同问题时,在数据量多的情况下,可以用相对复杂的模型处理问题,在数据量少的情况下,可以用相对简单的模型处理。

  • 欠拟合
    原因:特征维度过少,模型过于简单,但数据量很大,所需模型用不完大量数据提供的信息,误差较大。
    解决方法:增加特征维度

  • 过拟合
    原因:特征维度过多,模型过于复杂,参数太多,训练数据太少,数据噪声过多,导致拟合的函数完美预测训练集,但对新数据的预测结果差。
    解决方法:
    (1)降低模型复杂度:减少特征维数等
    (2)正则化:L1或L2;
    (3)增加Drop层,或添加Batch Normalization减轻过拟合现象。
    Dropout加在哪里??
    word embedding层后、pooling层后、fc层后(起步阶段dropout rate保持统一,之后再单独微调)
    (4)特征选择:过滤式、包裹式、嵌入式
    (5)稀疏学习:通过字典学习等方式得到,可以将样本转化为合适的稀疏表示,从而使学习任务得以简化,模型复杂度降低。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
min-max过拟合是指在进行极值归一化(min-max normalization)时,数据预处理过程中可能会引发的过拟合问题。 极值归一化是一种常用的数据预处理方法,将数据按照一定的范围进行缩放,常见的方法是将数据缩放到[0, 1]的范围内。这种方法可以解决不同特征量纲不同的问题,并且可以使得模型训练更加稳定和收敛快速。 然而,当使用min-max方法时,可能会产生过拟合现象。过拟合是指模型在训练集上表现良好,但在测试集上表现较差的现象。在数据预处理过程中,如果没有合理的划定数据范围,可能会导致某些特征的极端值(outliers)被映射到了[0, 1]之间,从而对这些极端值过于敏感。这样一来,模型在训练集上表现良好,但在真实数据上产生了不理想的结果。 为了解决min-max过拟合问题,可以考虑使用其他的缩放方法,如标准化(standardization)或者通过分位数方法去掉离群点(outliers)。标准化可以将数据转化为均值为0,标准差为1的分布,使得特征的取值范围不受极端值的影响。分位数方法可以通过计算数据的上下界,将极端值映射到一个较小的范围内,从而减少极端值对模型的影响。 总结来说,min-max过拟合是在数据预处理中使用极值归一化时可能发生的过拟合问题。为了解决这个问题,可以考虑使用其他的缩放方法,如标准化或分位数方法,以减少极端值对模型的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值