L1正则化为什么可以使模型参数具有稀疏性? 稀疏性就是很多参数为0的情况,对于维度很高的模型,稀疏性意味着抓住主要矛盾,可以提升模型的泛化性能。 L1正则化: W ∗ = a r g m i n ∑ j ( t ( X j ) − ∑ i w i h i ( X i ) ) 2 + λ ∑ i = 1 k ∣ w i ∣ W^*=argmin\sum_j(t(X_j)- \sum_iw_ih_i(X_i))^2+\lambda\sum_{i=1}^k|w_i| W∗=argminj∑(t(Xj)−i∑wihi(Xi))2