1.为什么要正则化?
防止过拟合.
2.什么是过拟合?
指训练的模型在训练集的损失很小,但是在测试集上表现不佳.
3.为什么会过拟合?
一般来说,数据中会有噪声,为了拟合包含噪声的训练集的数据,模型会变得很复杂.而这个模型只是适合这个包含了噪声的训练集,和实际的模型有较大偏差,在测试集数据上往往表现不回.
4.什么是正则化,其思想是什么?
正则化的思想是,模型应当是趋于简单的.根据奥卡姆剃刀定律,或许我们可以通过降低复杂模型的复杂度来防止过拟合,这种原则称为正则化,以最小化损失和复杂度为目标,这称为结构风险最小化.
5.模型复杂度怎么度量?
如果模型复杂度是权重的函数,则特征权重的绝对值越高,对模型复杂度的贡献就越大。我们可以使用
L2 正则化公式来量化复杂度,该公式将正则化项定义为所有特征权重的平方和:接近于 0 的权重对模型复杂度几乎没有影响,而离群值权重则可能会产生巨大的影响。
L1正则化公根据权重的绝对值的总和来惩罚权重。在依赖稀疏特征的模型中,L1 正则化有助于使不相关或几乎不相关的特征的权重正好为 0,从而将这些特征从模型中移除。与 L2 正则化相对。
6.L1,L2如何选择?
L₁ 正则化, 又称稀疏性正则化 (Regularization for Sparsity) ,可用于特征选择,大量权重为零的特征被排除,选择少量权重不为零的特征.
在线性模型中,L2 正则化始终可以改进泛化