机器学习 12 过拟合/欠拟合

Darren214

已于 2023-09-29 18:05:46 修改

阅读量85

点赞数

文章标签：机器学习人工智能 python

于 2023-04-12 19:51:50 首次发布

本文链接：https://blog.csdn.net/peng_258/article/details/130111814

版权

一、过拟合/欠拟合

拟合误差是指模型在训练数据上的误差。当我们训练一个模型时，我们希望它能够在训练数据上表现良好，但是我们也希望它能够在新的数据上表现良好。因此，我们需要控制拟合误差，以避免过拟合。

过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合: 一个假设在训练数据上不能获得更好的拟合，并且在测试数据集上也不能很好地拟合数据，此时认为这个假设出现了欠拟合的现象。(模型过于简单)

二、原因以及解决办法

2.1 欠拟合原因以及解决办法

原因: 学习到数据的特征过少。

解决办法:
1)添其他特征项，有时候我们模型出现欠拟合的时候是因为特征项不够导致的，可以添加其他特征项来很好地解决。例如，“组合”、“泛化”、“相关性”三类特征是特征添加的重要手段，无论在什么场景，都可以照葫芦画瓢，总会得到意想不到的效果。除上面的特征之外，“上下文特征”、“平台特征”等等，都可以作为特征添加的首选项。

2)添加多项式特征，这个在机器学习算法里面用的很普遍，例如将线性模型通过添加二次项或者三次项使模型泛化能力更强。

1、Add new features 1.增加新功能

2、Increase model complexity 2.增加模型复杂性

3、Reduce the regularization coefficient 3。减小正则化系数

2.2 过拟合原因以及解决办法

原因: 原始特征过多，存在一些嘈杂特征，模型过于复杂是因为模型尝试去兼顾各个测试数据点。

解决办法:

1.Data augmentation

2.Reduce model complexity

3.Regularization method

4.使用 dropout 技术来随机地删除一些神经元，从而减少模型的复杂度。

5.Bayesian method

6.Ensemble learning

7.Early stopping，使用早停技术（Early stop technology）来在验证集上监测模型的性能，并在性能不再提高时停止训练，从而避免过拟合，从而使模型更加泛化。

8、当我们有更多的训练数据时，模型可以更好地学习数据的特征，从而减少过拟合的风险。