因为L1会把很小的值压为0,将W变成了一个稀疏矩阵了,而L2则是整体的降小,只是W越大W降的越大,但是不会变成0,更能体现原始特征。因此常用L1来做特征选择。 L1只和稀疏的数据发生交叉,不稀疏的地方就不交叉。