首先毫无疑问的,他们都是可以防止过拟合,降低模型复杂度
L1是在loss function后面加上模型参数的1范数(也就是|xi|)L0范数的最小化问题在实际应用中是NP难问题,无法实际应用。L2是在loss function后面加上模型参数的2范数(也就是sigma(xi^2)),注意L2范数的定义是sqrt(sigma(xi^2)),在正则项上没有添加sqrt根号是为了更加容易优化。
L1 会产生稀疏的特征,L2 会产生更多地特征但是都会接近于0。L1在特征选择时候非常有用,而L2就只是一种规则化而已。具体的L1为什么会产生稀疏的特征,请看这里,说的很详细。
L1对应拉普拉斯分布,L2对应高斯分布。
L1不可导可以使用Proximal Algorithms或者ADMM来解决。
有关L0正则化的这里没说,可以看这里L0正则化
机器学习中的范数规则化之(一)L0、L1与L2范数 - zouxy09的专栏 - CSDN博客
机器学习中正则化项L1和L2的直观理解 - CSDN博客
机器学习中的范数规则化之(一)L0、L1与L2范数 - zouxy09的专栏 - CSDN博客
欢迎关注我的公众号,第一时间追踪相关面试题和总结:百面机器学习。回复干货获取相关资料和面试题总结(定期更新)。