L1和L2正则化:
我们所说的正则化,就是在原来的loss function的基础上,加上了一些正则化项或者称为模型复杂度惩罚项。
结构风险最小化: 在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。
那现在我们就看看加了L1正则化和L2正则化之后,目标函数求解的时候,最终解有什么变化。
图像解释(假设X为一个二维样本,那么要求解参数 [公式] 也是二维):
1. L1正则化和L2正则化的区别?
L1会趋向于产生少量的特征,而其他的特征都是零,因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为零,产生稀疏权重矩阵。
L2会选择更多的特征,这些特征都会接近于零,最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是零,当最小化‖w‖时,就会使每一项