正则的详细解释以及灵活运用（包含Lasso）

最新推荐文章于 2023-04-20 17:01:29 发布

lhz泽少

最新推荐文章于 2023-04-20 17:01:29 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/li15006474642/article/details/104606223

版权

本文详细介绍了正则化的概念及其在限制模型参数中的作用，特别是L1和L2正则化的区别。通过几何角度解释了L1正则化产生稀疏解的原因，以及在特定问题中如何选择使用L1或L2。同时，讨论了交叉验证在选择最佳超参数中的应用，以及参数搜索策略，如网格搜索、随机搜索和遗传算法。最后，探讨了Lasso正则化在特征选择中的优势，并举例说明了在房价预测问题中如何利用Lasso进行特征提取。

摘要由CSDN通过智能技术生成

正则的介绍

正则一开始是用来限制参数的，例如在逻辑回归中，目标函数： $p(y=1|x;w)=\dfrac{1}{1+e^-{w^Tx+b}}$ 越大越好参数， $p(y=0|x;w)=1-\dfrac{1}{1+e^-{w^Tx+b}}$ 越小越好，如果我们的数据线性可分时，根据目标函数， $w$ 就会变得无穷大，因为此时 $p (y = 1 ∣ x; w) = 1$ 而 $p (y = 0 ∣ x; w) = 0$ ,但是这显然不是我们想要的，这样模型就会过拟合了。所以我们要限制参数，不让它太大因此这个时候我们用到了正则：

$w,b=argmin\quad\prod_{i=1}^n p(y_i|x_i;w)+\lambda||w||^2$

$w||^2=w_1^2+w_2^2+w_3^2+...+w_d^2$

假设 $w$ 变得很大，那么 $\lambda||w||^2$ 也会变得很大，这样就会使公式也会变得很大，而我们的目标函数是为了求最小，所以在计算的时候不会让 $w$ 变得特别大。也就是做到了限制参数的作用。

此时 $\lambda$ 表示的是超参数，当 $\lambda=0$ 时表示没有任何限制，
当 $\lambda$ 越大对 $w$ 的限制越大，相反当 $\lambda$ 越小对 $w$ 的限制越小。因此 $\lambda$ 限制 $w$ 避免线性可分时参数 $w$ 变得无穷大。

L1和L2

$\lambda ||w||^2$ 我们经常称为 $L 2$ ,，但是正则不仅仅只有 $\lambda ||w||^2$ 一种，我们常见的还有正则 $L1:\lambda ||w||=\lambda\sum_{i=1}^d|w_i|$ 当然还有其他正则在这里就不一一介绍啦，一般正则的使用都是比较灵活，针对特定的问题使用正则。

现在我们了解一下这两种正则

$w,b=argmin\quad\prod_{i=1}^n p(y_i|x_i;w)+\lambda||w||^2_2$

$w,b=argmin\quad\prod_{i=1}^n p(y_i|x_i;w)+\lambda||w||_1$

$L 1$ 和 $L 2$ 的作用都是使得参数 $w$ 变小，避免变得很大，但是它俩有一个不同之处：

使用 $L 1$ 导致我们获得解是一个稀疏的解：

$w = (0, 0, 0, 0, 0.01, 0, 0, 0, 0.2, 0, 0.4)$

也就是遇到一些很小的值我们都把它设置为0，因此 $L 1$ 可以做一些选择性的场景

而使用使用 $L 2$ 导致我们获得解是不是稀疏的

w=(0.1,0.054,0.11,0.25,0.01,0.2,0.4)

为什么会是这样的

我们使用几何的角度来了解一下如下图：

在这里插入图片描述
我们求得解也就是 $f (w)$ 与 $L 1 或 L 2$ 的交集处，我们可以从图片中看出 $f (w)$ 与 $L 1$ 的交点有很多都落在 $y$ 轴上，所以加入L1的正则得到的解往往是稀疏的

因此我们在使用正则的时候往往是根据特定问题去选择使用L1还是L2，比如我们在思考问题的时候大脑中的的神经不是全部在发生作用，往往只是一小部分，或者只是一部分区域，如果我们在思考这类问题时，可以加入一个L1正则
在这里插入图片描述
目标函数为： $f(r_1w_1+r_2w_2+r_3w_3+r_4w_4+...+r_nw_n)$