在线性回归的问题中就出现了一个后面学习也常用的概念正则化,这里对它进行一个简单总结。
统计学习方法中描述到模型选择的典型方法是正则化,正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大,比如,正则化项可以是模型参数向量的范数。
范数的定义为:假设x是一个向量,则它的Lp范数为:
正则化一般形式为:
其中,第1项是经验风险(损失函数),第2项是正则化项,λ≥0为调整两者之间关系的系数。正则化项可以取不同的形式,第1项的经验风险较小的模型可能较复杂(有多个非零参数),这时第2项的模型复杂度会较大,正则化的作用是选择经验风险与模型复杂度同时较小的模型。
列如,回归问题中,损失函数是均方误差(为求导方便多乘一个1/2)
如果用梯度下降求解:
则参数更新为:
加入正则化项(参数向量的L2范数)后,损失函数变为:
再用梯度下降求解:
则参数更新公式为:
由于wi越大的,相应减去的也会更大,而wi较小的,相应减去也会更小,这样就有效降低了模型最终拟合的复杂度,防止了某些特征的系数过大导致拟合异常的现象。
当然,对于同样的问题,正则化项也可以是参数向量的L1范数:
不过这时候参数更新方程变为了:
它跟使用L2正则不同的是,使用L1正则每次更新参数时会减去一个常数,而使用L2正则每次减去的是跟参数大小成比例的,也就是参数越大减去的越大。