L0范数
向量中非0的元素的个数
L1范数
向量中各个元素绝对值之和
别名
- “稀疏规则算子”(Lasso regularization)
L0 L1都可以实现稀疏, L1比L0有更好的优化求解特性
- L0范数难求解,NP难问题
- L1是L0范数的最优凸近似,更易于求解
稀疏优点
- 特征自动选择
稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。 - 可解释性
L2范数
向量各元素的平方和然后求平方根
别名
- 在回归里面,叫“岭回归”(Ridge Regression)或者“权值衰减weight decay”
- Ridge
优点:
- 防止过拟合,提升模型泛化能力
- 有助于处理运算困难问题(condition number不好的情况下矩阵求逆)
condition number是一个矩阵(或者它所描述的线性系统)的稳定性或者敏感度的度量,如果一个矩阵的condition number在1附近,那么它就是well-conditioned的,如果远大于1,那么它就是ill-conditioned的,如果一个系统是ill-conditioned的,它的输出结果就不要太相信了。
对于一个ill-condition的系统,输入稍微改变,输出就发生很大的改变
假设我们有个方程组AX=b,我们需要求解X。如果A或者b稍微的改变,会使得X的解发生很大的改变,那么这个方程组系统就是ill-condition的,反之就是well-condition的。
总结
- L1会趋向于产生少量的特征,而其他的特征都是0
- L2会选择更多的特征,这些特征都会接近于0
- Lasso在特征选择时候非常有用
- Ridge只是一种规则化