我们来看吴恩达教授预测房价的例子
左边的图可以看到是一个线性拟合图,可以看到面积越大其房价越高。但实际数据分布则是房价高到一定程度会趋于平缓。我们认为该模型和实际数据之间存在一定的偏差。
这种不能很好的拟合实际数据的情况,即为欠拟合(高偏差)
右边的图可以看到是一个扭曲的多元曲线图,它在我们的训练数据上做了一个很好的拟合,但在测试数据上会过拟合,不具备泛化性,我们认为该模型对训练数据过度拟合
这种过度拟合训练数据,对其他数据不具备泛化性的情况,即为过拟合(高方差)
过拟合常常发生在一个变量或特征过多的情况
- 在变量过多时,如果此时我们的训练数据过少,则有可能会出现过拟合(因为变量过多,训练数据很少的情况下,模型几乎是完全为训练集打造的)
- 当特征过多时,有可能会出现相对不相关的特征;且特征过多意味着样本在特征空间是稀疏的,模型对样本的个性拟合大于共性,可能会出现过拟合
这两种都是对过拟合情况有影响的,并不是因果的关系。
如何避免过拟合问题?
- 可以考虑舍弃一些