百面机器学习 #2 模型评估：07 过拟合和欠拟合及其常用解决方法

最新推荐文章于 2020-09-21 13:36:48 发布

petSym

最新推荐文章于 2020-09-21 13:36:48 发布

阅读量707

点赞数

分类专栏：机器学习百面机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/petsym/article/details/106289240

版权

9 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

如何有效地识别“过拟合”和“欠拟合”现象，并有针对性地进行模型调整，是不断改进机器学习模型的关键。

过拟合
- 模型对于训练数据拟合呈过当的情况
- 反映到评估指标上，就是模型在训练集上的表现很好，但在测试集和新数据上的表现较差
- 模型过于复杂，容易把噪声数据的特征也学习到模型中，导致模型泛化能力下降，在后期应用过程中很容易输出错误的预测结果
欠拟合
- 模型在训练和预测时表现都不好的情况
- 没有很好地捕捉到数据的特征，不能够很好地拟合数据

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QlF1vYi5-1590144657074)(%E7%99%BE%E9%9D%A2%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/image-20200522183829454.png)]

使用更多的训练数据是解决过拟合问题最有效的手段
- 因为更多的样本能够让模型学习到更多更有效的特征，减小噪声的影响
直接增加实验数据一般是很困难的，可以通过一定的规则来扩充训练数据
- 在图像分类的问题上，可以通过图像的平移、旋转、缩放等方式扩充数据
- 更进一步地，可以使用生成式对抗网络来合成大量的新训练数据

在数据较少时，模型过于复杂是产生过拟合的主要因素，适当降低模型复杂度可以避免模型拟合过多的采样噪声。
- 在神经网络模型中减少网络层数、神经元个数等
- 在决策树模型中降低树的深度、进行剪枝等

给模型的参数加上一定的正则约束，比如将权值的大小加入到损失函数中
- 以L2正则化为例，这样，在优化原来的目标函数C0的同时，也能避免权值过大带来的过拟合风险
$C=C_0+\frac{\lambda}{2n}\cdot\sum_iw_i^2$

当特征不足或者现有特征与样本标签的相关性不强时，模型容易出现欠拟合
通过挖掘“上下文特征”“ID类特征”“组合特征”等新的特征，往往能够取得更好的效果
- 如因子分解机、梯度提升决策树、Deep-crossing等都可以成为丰富特征的方法

关注

专栏目录