欠拟合（Underfitting） & 过拟合（Overfitting） & 正则化（Regularization）

最新推荐文章于 2024-04-04 14:00:07 发布

转载最新推荐文章于 2024-04-04 14:00:07 发布

· 8.5k 阅读

文章标签：

24 篇文章

订阅专栏

所谓欠拟合（Underfitting），即模型没有学到数据内在关系，如下图左一所示，产生分类面不能很好的区分X和O两类数据；产生的深层原因，就是模型假设空间太小或者模型假设空间偏离。

所谓过拟合（Overfitting），即模型过渡拟合了训练数据的内在关系，如下图右一所示，产生分类面过好地区分X和O两类数据，而真实分类面可能并不是这样，以至于在非训练数据上表现不好；产生的深层原因，是巨大的模型假设空间与稀疏的数据之间的矛盾。

在实战中，可以基于模型在训练集和测试集上的表现来确定当前模型到底是Underfitting还是Overfitting，判断方式如下表：

怎么解决Underfitting和Overfitting问题？

问题	数据	特征	模型
Underfitting	清洗数据	1. 增加特征 2. 删除噪音特征	1. 调低正则项的惩罚参数 2. 换更“复杂”的模型（如把线性模型换为非线性模型） 3. 多个模型级联或组合
Overfitting	增加数据	1. 进行特征选择 2. 降维（如对特征进行聚类、主题模型进行处理等）	1. 提高正则项的惩罚参数 2. 减少训练迭代次数 3. 换更“简单”的模型（如把非线性模型换为线性模型）