L1和L2 复习问题

最新推荐文章于 2021-11-10 10:37:01 发布

你今天机器学习了么

最新推荐文章于 2021-11-10 10:37:01 发布

阅读量1k

点赞数 2

文章标签：机器学习

原文链接：https://zhuanlan.zhihu.com/p/58434325

版权

L1和L2

L2正则化，为什么L2正则化可以防止过拟合？L1正则化是啥？

https://editor.csdn.net/md/?articleId=106009362

“为什么所有这些都有助于减少过度拟合的问题？”

请考虑绝对值和平方函数的图，其中绝对值表示在L1期间执行的运算，而在L2正则化期间执行的运算平方。

L1和L2正则化
当我们用正则项Ω最小化损失函数时，每个权重都被“拉”为零。请考虑位于上述曲线之一上的每个权重参数，这些权重参数正比于正则化率α的“重力”。

在L1正则化过程中，权重值与其绝对值成正比地趋近于零-它们位于红色曲线上。
在L2正则化过程中，权重值将按其平方值-蓝色曲线成比例地拉向零。
在这里插入图片描述
起初，L2似乎更严重，但要注意的是，接近零时，会出现另一种情况：

在这里插入图片描述
在L2正则化的情况下，我们的权重参数会减小，但不一定变为零，因为曲线在零附近趋于平坦。另一方面，在L1正则化期间，权重始终始终被迫逼近零。

我们也可以对此采取不同的数学观点。

对于L2，您可以考虑求解一个方程，其中权重平方值的总和等于或小于值s。 s是存在于正则项α的每个可能值的常数。对于仅两个权重值W1和W2，该方程式如下所示：W1²+W2²≤s

另一方面，可以将L1正则化视为权重值的模和小于或等于值s的等式。它将类似于以下表达式：| W1 | + | W2 | ≤秒

基本上，为L1和L2正则化引入的方程是约束函数，我们可以将其可视化：
在这里插入图片描述
岭和lasso回归
左图显示了L1正则化的约束函数（绿色区域），右图显示了L2正则化的约束函数。红色椭圆是梯度下降过程中使用的损失函数的轮廓。在轮廓的中心有一组最佳权重，其损失函数具有全局最小值。

在L1和L2正则化的情况下，W1和W2的估计值由椭圆与绿色约束区域相交的第一点给出。

由于L2正则化具有圆形约束区域，因此通常不会在轴上发生交点，因此W1和W2的估算值将全部为非零值。

在L1的情况下，约束区域具有带角的菱形形状。因此，损失函数的轮廓通常会在轴上与约束区域相交。然后发生这种情况，估计之一（W1或W2）将为零。

在高维空间中，许多权重参数将同时等于零。
这说明了岭回归的一个明显缺点：模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0，但永不达到 0。也就是说，最终的模型会包含所有的预测因子。但是，在 Lasso 中，如果将调整因子 λ 调整得足够大，L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此，Lasso 可以进行变量选择，产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中，于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型；换言之，基于L1正则化的学习方法就是一种嵌入式特征选择方法，其特征选择过程和学习器训练过程融为一体，同时完成。

深度学习里面怎么防止过拟合？（data aug；dropout；multi-task learning）如何防止过拟合，我跟他列举了4中主要防止过拟合方法：Early Stopping、数据集扩充、正则化法以及dropout，还详细跟他说了每种方法原理及使用的场景，并解释我在哪些项目里具体用到了这些方法，

DropOut
神经网络正则化的另一种非常流行的方法是DropOut。这个想法实际上非常简单-我们神经网络的每个单元（属于输出层的单元除外）都具有在计算中被暂时忽略的概率p。超级参数p称为丢失率，通常将其默认值设置为0.5。然后，在每次迭代中，我们根据分配的概率随机选择掉落的神经元。结果，每次我们使用较小的神经网络时。下面的可视化图显示了遭受丢失的神经网络的示例。我们可以看到在每次迭代中如何停用第二层和第四层的随机神经元。

这种方法的有效性非常令人惊讶并且违反直觉。毕竟，在现实世界中，如果工厂的经理每天随机选择雇员并将其送回家，那么工厂的生产率就不会提高。让我们从单个神经元的角度来看这个问题。由于在每次迭代中都可以随机消除任何输入值，因此神经元会尝试平衡风险，而不偏爱任何功能。结果，权重矩阵中的值变得更均匀地分布。该模型希望避免提出的解决方案不再有意义的情况，因为该解决方案不再具有来自非活动功能的信息。

earlier stop

在实践中，每隔几次迭代对我们的模型进行抽样并检查其与验证集的配合情况。将保存比以前的所有模型性能更好的每个模型。我们还设置了一个限制，即没有记录进度的最大迭代次数。当超过该值时，学习停止。尽管尽早停止可以大大改善我们模型的性能，但实际上，它的应用使模型优化的过程大大复杂化。很难与其他常规技术结合使用。

机器学习中使用「正则化来防止过拟合」到底是一个什么原理？为什么正则化项就可以防止过拟合？https://www.zhihu.com/question/20700829

机器学习中常常提到的正则化到底是什么意思？https://www.zhihu.com/question/20924039

什么是正则项，L1范式，L2范式区别是什么，各自用在什么地方？L1 与 L2 的区别以及如何解决 L1 求导困难；

https://www.cnblogs.com/nxf-rabbit75/p/9954394.html#auto-id-20

L1正则为什么能让系数变为0？L1正则怎么处理0点不可导的情形？（近端梯度下降）
参见我的另一篇详细文章

L0，L1，L2正则化(如果能推导绝对是加分项，一般人最多能画个等高线，L0是NP问题)其实上面的这些问题基本都能在《李航：统计学习方法》《周志华：机器学习》里面找到，能翻个4，5遍基本就无压力了

避免过拟合策略、如何提高模型泛化能力、L1与L2正则区别，优缺点、

生成式，判别式模型、深度学习这块了解多少、

父亲有两个孩子，孩子A和孩子B。孩子A具有特殊的性格，但他可以深入学习所有东西。小孩子B具有特殊的性格，而他只能学习所见事物之间的差异。
晴天，父亲将两个孩子（孩子A和孩子B）带到动物园。这个动物园很小，只有狮子和大象两种动物。他们从动物园出来后，父亲给他们看了一只动物，问他们“这只动物是狮子还是大象？”
孩子A，孩子突然根据他在动物园内看到的东西，在纸上画了狮子和大象的图像。他将这两个图像与之前站立的动物进行了比较，并根据与图像和动物最接近的匹配进行了回答，他回答：“动物是狮子”。
根据所学的不同属性，孩子B仅知道差异，他回答：“动物是狮子”。
在这里，我们可以看到他们俩都在寻找动物，但是学习的方式和寻找答案的方式完全不同。在机器学习中，我们通常将孩子A称为生成模型，将孩子B称为判别模型。
通常，判别模型‌为类之间的决策边界建模。生成模型‌显式地模拟每个类的实际分布。最后，他们俩都在预测条件概率P（动物|特征）。但是，两种模型都学习不同的概率。
生成模型‌学习联合概率分布p（x，y）。它借助贝叶斯定理预测条件概率。判别模型学习条件概率分布p（y | x）。这两种模型通常用于有监督的学习问题中。

如何克服过拟合，欠拟合
之前文章写到过

https://editor.csdn.net/md/?articleId=105983507

L1正则为什么可以把系数压缩成0，坐标下降法的具体实现细节

https://www.coursera.org/lecture/ml-regression/coordinate-descent-uHBq7

首先确定目标：

在这里插入图片描述
f是凸且光滑的

当n大时，计算完整的梯度，这意味着梯度下降不一定总是有效的。观察到对于非约束问题，当且仅当∇f（x ∗）= 0，即∇if（x ∗）= 0，∀i= 1时，x ∗是最优解。。。，n。为了找到最佳解决方案，沿着每个坐标方向进行搜索是有意义的。如果在某个点上目标并非在每个坐标方向上都在减小，那么我们已经达到了最佳状态。这激发了所谓的坐标最小化算法，或者也称为坐标下降算法。
坐标下降算法是无导数优化方法。

坐标最小化坐标下降算法的总体思路如下所示

在这里插入图片描述

目标函数值不减：f（x（0））≥f（x（1））≥…
如果f是凸且光滑的，则算法收敛至全局最小值（最优解）
如果f是非凸的或什至不是平滑的，则该算法可能根本不会收敛。示例：
f（x，y）= | x + y | +3 | x−y |。如果以（x，y）=（-1，-1）开始，算法将不会移动。

在这里插入图片描述
假设算法在非平滑情况下位于拐角点；然后可以尝试两个方向，如红色箭头所示。但是，沿着这两个方向的每一步都会增加目标函数的值，因此即使两步之和使算法更接近最优值，算法也不会采取任何措施。对于右侧的平滑情况，我们看到了严格的收敛。
该框架可以被概括用于块更新，例如。您可以将决策变量拆分为多个块，然后可以循环更新每个块。这通常称为块坐标下降。在我们有两个拖曳块的情况下，块坐标下降只是减少到交替最小化。
为什么L1正则可以实现参数稀疏，而L2正则不可以？为什么L1很多系数可以被压缩为0，L2是被压缩至接近于0？

对于稀疏模型，我们考虑一个模型，其中许多权重为0。因此，让我们对L1正则化如何更有可能创建0权重进行推理。

考虑一个由权重（𝑤1，𝑤2，…，𝑤𝑚）组成的模型。
使用L1正则化，您可以通过损失函数𝐿1（𝑤）惩罚模型
在这里插入图片描述
通过L2正则化，您可以用损失函数𝐿2（𝑤）惩罚模型

如果使用梯度下降，则将逐步使权重沿梯度的相反方向变化，步长为𝜂乘以梯度。这意味着，较陡峭的渐变将使我们采取更大的步幅，而较平缓的渐变将使我们采取更小的步幅。让我们看一下梯度（在L1情况下为次梯度）：
在这里插入图片描述
如果我们绘制了损失函数及其对于仅由一个参数组成的模型的导数，则对于L1和L2如下所示：

注意，对于𝐿1，除了𝑤1= 0时，梯度为1或-1。这意味着无论权重值如何，L1正则化将以相同步长将任何权重移向0。相反，我们可以看到，随着权重接近0，𝐿2梯度会朝着0线性减小。因此，L2正则化也将使任何权重都趋向0，但是当权重接近0时，步长将越来越小。
在这里插入图片描述