前言
本文讨论了机器学习中正则化这个话题,对于L1正则项为什么稀疏也是面试中经常涉及的。
概要
正则化是机器学习中防止过拟合的一种重要技术。从数学上讲,它增加了一个正则化项,以防止系数如此完美地拟合而过度拟合。
为什么需要正则化
定义样本 , 为样本空间,模型函数 ,故预测值为 ,损失函数为 。因此机器学习的训练过程可以转换为一个在泛函空间内,找到一个使得全局损失 最小的模型 ,此时的损失函数又叫做「经验风险」(empirical risk),即损失函数的期望:
但上述损失函数只考虑了训练集上的经验风险,会出现过拟合的现象。为什么会出现过拟合?因为「模型参数过多或者结构过于复杂」。故我们需要一个函数来「描述模型的复杂程度」,即 ,也就是机器学习中常说到的「正则化项」(regularizer)。为了对抗过拟合,我们需要结合损失函数和正则化项,使他们的和最小,就可以将经验风险最小化问题转化为结构风险最小化,即机器学习中定义的「目标函数」(objective function):
其中, 目标函数,