统计学习方法概要
各部分关系图
模型选择——正则化与交叉验证
1、正则化
正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或惩罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值越大。正则化的一般形式:
这里的第一项是经验风险,第二项是正则化项。第一项经验风险较小的模型可能比较复杂(有多个非0参数),这时第二项模型复杂度就会高。正则化的作用就是选择经验风险与模型复杂度同时较小的模型。
比如,在回归问题中,损失函数是平方损失,正则化项可以是参数向量的 L 2 L_2 L2范数,这里的 ∣ ∣ w ∣ ∣ ||w|| ∣∣w∣∣表示参数向量 w w w的 L 2 L_2 L2范数:
正则化项也可以是参数向量的 L 1 L_1 L1范数,这里的 ∣ ∣ w ∣ ∣ 1 ||w||_1 ∣∣w∣∣1表示参数向量 w w w的 L 1