正则化--L1正则化（稀疏性正则化）

最新推荐文章于 2024-04-19 08:50:23 发布

dengao9681

最新推荐文章于 2024-04-19 08:50:23 发布

阅读量1k

点赞数 1

原文链接：http://www.cnblogs.com/taro/p/8643393.html

版权

稀疏矢量通常包含许多维度。创建特征组合会导致包含更多维度。由于使用此类高维度特征矢量，因此模型可能会非常庞大，并且需要大量的 RAM。

在高维度稀疏矢量中，最好尽可能使权重正好降至 0。正好为 0 的权重基本上会使相应特征从模型中移除。将特征设为 0 可节省 RAM 空间，且可以减少模型中的噪点。

以一个涵盖全球地区（不仅仅只是涵盖加利福尼亚州）的住房数据集为例。如果按分（每度为 60 分）对全球纬度进行分桶，则在一次稀疏编码过程中会产生大约 1 万个维度；如果按分对全球经度进行分桶，则在一次稀疏编码过程中会产生大约 2 万个维度。这两种特征的特征组合会产生大约 2 亿个维度。这 2 亿个维度中的很多维度代表非常有限的居住区域（例如海洋里），很难使用这些数据进行有效泛化。若为这些不需要的维度支付 RAM 存储费用就太不明智了。因此，最好是使无意义维度的权重正好降至 0，这样我们就可以避免在推理时支付这些模型系数的存储费用。

我们或许可以添加适当选择的正则化项，将这种想法变成在训练期间解决的优化问题。

L2 正则化能完成此任务吗？遗憾的是，不能。 L2 正则化可以使权重变小，但是并不能使它们正好为 0.0。

另一种方法是尝试创建一个正则化项，减少模型中的非零系数值的计数。只有在模型能够与数据拟合时增加此计数才有意义。遗憾的是，虽然这种基于计数的方法看起来很有吸引力，但它会将我们的凸优化问题变为非凸优化问题，即 NP 困难。（如果您仔细观察，便会发现它与背包问题关联。）因此，L0 正则化这种想法在实践中并不是一种有效的方法。