L1 范数定义为一个向量所有元素的绝对值之和。对于向量 w 来说,L1 范数表示为:
在机器学习中,
𝐿1正则化的目的是通过最小化这个范数来引导模型选择一个稀疏解,即一个尽可能多的元素为零的解。这在特征选择和防止过拟合中非常有用。
可以将 𝐿1正则化想象成一种机制,它迫使模型尽量少地使用特征。通过限制权重的绝对值和,模型倾向于只保留对结果影响最大的少数特征,而将其他特征的权重压缩为零。这就类似于我们在整理东西时,尽量只保留最重要的东西,把不重要的尽量丢掉。
通过正则化实现泛化——边界最大化
SVM 的目标是找到一个能够最大化边界的超平面,以此来提高模型的泛化能力。
左侧图示描述了一个二元分类问题的最优分离超平面,该超平面将两个特征x1 和 x2 所组成的样本集进行分类。超平面方程为^T x + b =0,并且在分类时,我们希望最大化这个超平面的边界。即,通过找到一个可以最大化两类数据点间距的超平面,使得数据点能够被尽可能地分开。
边界大小(Margin Size)表明边界大小与权重向量 w 的范数成反比。即,当 w 越小,边界就越大,这意味着数据点之间的间距更大,从而提高模型的泛化能力
硬边界 SVM:目标是找到一个能够完全分离训练数据的超平面,并且边界大小最大化。这里的正则化项 1/2∥w∥用于防止模型过于复杂。
在实际应用中,数据通常无法被完美分