1.首先在模型选择上,简单数据,应该使用简单的模型,复杂的数据用复杂的模型
2. 训练数据集中的样本越少,我们就越有可能(且更严重地)过拟合。 随着训练数据量的增加,泛化误差通常会减小。 此外,一般来说,更多的数据不会有什么坏处。 对于固定的任务和数据分布,模型复杂性和数据集大小之间通常存在关系。 给出更多的数据,我们可能会尝试拟合一个更复杂的模型。 能够拟合更复杂的模型可能是有益的。 如果没有足够的数据,简单的模型可能更有用。 对于许多任务,深度学习只有在有数千个训练样本时才优于线性模型。
3.L1,L2,正则化
首先加入L1或L2正则化是对w的一个限制即J=L(w) s.t. f(w)。经过拉格朗日转为无约束问题,加在L后面从而有我们熟悉的形式。
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
- L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合
而正则化前面的系数 α,可以控制 L 图形的大小。 α越小, L的图形越大(上图中的黑色方框); α 越大, L的图形就越小,可以小到黑色方框只超出原点范围一点点,这是最优点的值 (w1,w2)=(0,w)中的 w可以取到很小的值。
其实L2正则化还有着熵最大的表现,
4.暂退法(dropout):一种无偏向(unbiased)(预期是E[x′]=x。x′是注入噪声后的数据)的方式注入噪声。
-
暂退法可以避免过拟合,它通常与控制权重向量的维数和大小结合使用的。
-
暂退法将活性值hh替换为具有期望值hh的随机变量。
-
暂退法仅在训练期间使用。(暂退法是对数据加入了噪声,对于验证的时候我们并不需要对数据有任何噪声的加入)