定义
惩罚模型又称为正则化模型,定义为:
通过在模型损失函数中增加一个正则项(惩罚项)来控制模型的复杂度。
惩罚项
一般来说,惩罚项都是一个随着模型复杂度增加而增加的单调递增函数。
目的
惩罚项(正则化)的目的:通过降低模型的复杂度,从而防止过拟合,提高模型的泛化能力。
解释
1.奥卡姆剃刀原理:如果用简单的方法达到很好的效果,就没有必要使用复杂的方法。
2.在模型中使用更多的自变量,一般情况下都会提升模型在训练数据集上的表现,但同时也会提高模型的复杂度、降低模型在验证集上的泛化能力,造成过拟合。
常用的惩罚项(正则项)
以线性回归模型的损失函数为例:
假设线性回归模型需要求解的参数为列向量A,数据集中有N个样本。
方法1:Lasso回归
L1正则系数:lasso回归
L1是模型各个参数的绝对值之和
L1可以将特征参数约束到0,因此L1会趋向于产生少量的特征,而其他的特征都是0
L1也是因此具有特征筛选的功能(被筛除的特征特征参数为0)
L1通过融入少量的特征来防止过拟合
方法2:ridge回归
L2是模型各个参数的平方和的开方值
L2只能减小特征参数值,让参数接近0,但不能将参数约束到0
L2通过减小特征的参数值来防止过拟合