机器学习中,关于模型的策略,有期望风险最小化,和结构风险最小化;
结构风险最小化,是在考虑误差尽量小的同时,模型的复杂度也不能太高,否则容易造成过拟合。
因此,结构风险最小化的目标函数就是最小化下面这个公式:
规则化函数Ω(w)也有很多种选择,一般是模型复杂度的单调递增函数,模型越复杂,规则化值就越大。比如,规则化项可以是模型参数向量的范数。然而,不同的选择对参数w的约束不同,取得的效果也不同,但我们在论文中常见的都聚集在:零范数、一范数、二范数、迹范数、Frobenius范数和核范数等等。
L0范数与L1范数
L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。L0范数很难优化求解。
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用
L1与L2正则化
我们假设损失函数是凸函数,则L1和L2加入损失函数后的图像:
未加入正则化项之前,我们的优化目标是得到等高线最小的点,也就是最内侧的紫色圆圈;
当加入了L1