正则化
正则化一般的形式如下
∑i=1ML(yi,f(xi;θ))+λJ(f)
正则化项一般是模型复杂度的单调递增函数。当模型越复杂的时正则化项越大,而当模型越复杂的时候就越容易产生过拟合。因此我们不仅要最小化损失函数,同时还要减小模型的复杂度。
防止过拟合,提高泛化能力。
上式中 λ 是模型复杂度和损失函数之间的权衡,当 λ 很大时,模型越越简单,但是可能会发生欠拟合。当 λ 很小时,模型复杂,模型可能会发生过拟合。通常使用交叉验证确定 λ 。
正则化项可以对应于贝叶斯先验概率,简单的模型先验概率比较高,复杂的模型概率比较小。
有两种方式可以表示正则化项
∑i=1ML(yi,f(xi;θ))+λ||θ||1∑i=1ML(yi,f(xi;θ))+λ||θ||2
两者都可以表示模型的复杂度,但两者的作用却不一样
- 对于 L1范数,参数更趋向于等于0,学习得到的参数更加稀疏,具有特征选择的作用
- 对于L2范数,每个参数都比较均衡,非0参数比较多,得到的参数更加平滑
总结:
- 减小模型的复杂度,提高模型的泛化能力
- 相当于权值的先验概率
- 减小特征值,对应于模型复杂度减小
- 减小参数空间