机器学习-正则化

最新推荐文章于 2023-09-10 17:29:40 发布

Threelights

最新推荐文章于 2023-09-10 17:29:40 发布

阅读量367

点赞数

分类专栏：机器学习

原文链接：https://www.cnblogs.com/jclian91/p/9824310.html

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

在机器学习中，正规化是防止过拟合的一种重要技巧。从数学上讲，它会增加一个正则项，防止系数拟合得过好以至于过拟合。

L1就是权重的和: $\lambda\sum_{i=1}^{k}|w_i|$

L2是权重的平方和: $\lambda\sum_{i=1}^{k}(w_i)^2$

最小平方损失函数的L1正则化：

$w^*=\arg \min\sum (t(x_j)-\sum w_ih_i(x_j))^2+\lambda\sum_{i=1}^{k}|w_i|$

最小平方损失函数的L2正则化：

$w^*=\arg \min\sum (t(x_j)-\sum w_ih_i(x_j))^2+\lambda\sum_{i=1}^{k}(w_i)^2$

它们的性质的区别总结如下：

L2正则化	L1正则化
计算效率高（因为有解析解）	在非稀疏情形下计算效率低
非稀疏输出	稀疏输出
无特征选择	内置特征选择

解的唯一性是一个更简单的性质，但需要一点想象。首先，看下图：

绿色的线（L2范数）是唯一的最短的路径，而红色、蓝色、黄色线条（L1范数）都是同一路径，长度一样（12）。可以将其扩展至n-维的情形。这就是为什么L2范数有唯一解而L1并不是。
内置特征选择是L1范数被经常提及的有用的性质，而L2范数并不具备。这是L1范数的自然结果，它趋向于产生稀疏的系数。假设模型有100个系数，但是只有其中的10个是非零的，这实际上是说“其余的90个系数在预测目标值时都是无用的”。L2范数产生非稀疏的系数，因此它不具备这个性质。
稀疏性指的是一个矩阵（或向量）中只有少数的项是非零的。L1范数具备性质：产生许多0或非常小的系数和少量大的系数。
计算效率。L1范数没有一个解析解，但是L2范数有。这就允许L2范数在计算上能高效地计算。然而，L1范数的解具备稀疏性，这就允许它可以使用稀疏算法，以使得计算更加高效。