PyTorch入门实战教程笔记(十七):过拟合1
过拟合&欠拟合
在模型评估与调整的过程中,往往会遇到“过拟合”或“欠拟合”的情况。如何有效地识别“过拟合”和“欠拟合”现象,并有针对性进行模型调整,是不断改进机器学习模型的关键。那么过拟合和欠拟合具体是指什么现象呢?
过拟合(overfitting)是指模型的参数量,模型的表达能力,已经超越本身模型的复杂度。反应在评估指标上,就是模型在训练集上的表现很好,但在测试集和新数据上表现的较差。
欠拟合(underfitting)指的是模型在训练和预测时表现都不好的情况,一般少见。
下图形象的描述了过拟合和欠拟合的区别:
可以看出,图(1)是欠拟合的情况,图(3)则是过拟合的情况,模型过于复杂,把噪声数据的特征也学习到模型中,导致模型的泛化能力下降,在后期应用过程中很容易输出错误的预测结果。
那么如果防止或者降低overfitting,我们有一下方法:
1)使用更多的训练数据。更多的样本能够让模型学习到更多更有效的特征,减小噪声的影响。当然,直接增加实验数据一般是很困难的,但是可以通过一定的规则来扩充训练数据。比如,在图像分类的问题上,可以通