L1和L2 复习问题

L1和L2

L2正则化,为什么L2正则化可以防止过拟合?L1正则化是啥?

https://editor.csdn.net/md/?articleId=106009362

“为什么所有这些都有助于减少过度拟合的问题?”

请考虑绝对值和平方函数的图,其中绝对值表示在L1期间执行的运算,而在L2正则化期间执行的运算平方。

L1和L2正则化
当我们用正则项Ω最小化损失函数时,每个权重都被“拉”为零。请考虑位于上述曲线之一上的每个权重参数,这些权重参数正比于正则化率α的“重力”。

在L1正则化过程中,权重值与其绝对值成正比地趋近于零-它们位于红色曲线上。
在L2正则化过程中,权重值将按其平方值-蓝色曲线成比例地拉向零。
在这里插入图片描述
起初,L2似乎更严重,但要注意的是,接近零时,会出现另一种情况:

在这里插入图片描述
在L2正则化的情况下,我们的权重参数会减小,但不一定变为零,因为曲线在零附近趋于平坦。另一方面,在L1正则化期间,权重始终始终被迫逼近零。

我们也可以对此采取不同的数学观点。

对于L2,您可以考虑求解一个方程,其中权重平方值的总和等于或小于值s。 s是存在于正则项α的每个可能值的常数。对于仅两个权重值W1和W2,该方程式如下所示:W1²+W2²≤s

另一方面,可以将L1正则化视为权重值的模和小于或等于值s的等式。它将类似于以下表达式:| W1 | + | W2 | ≤秒

基本上,为L1和L2正则化引入的方程是约束函数,我们可以将其可视化:
在这里插入图片描述
岭和lasso回归
左图显示了L1正则化的约束函数(绿色区域),右图显示了L2正则化的约束函数。红色椭圆是梯度下降过程中使用的损失函数的轮廓。在轮廓的中心有一组最佳权重,其损失函数具有全局最小值。

在L1和L2正则化的情况下,W1和W2的估计值由椭圆与绿色约束区域相交的第一点给出。

由于L2正则化具有圆形约束区域,因此通常不会在轴上发生交点,因此W1和W2的估算值将全部为非零值。

在L1的情况下,约束区域具有带角的菱形形状。因此,损失函数的轮廓通常会在轴上与约束区域相交。然后发生这种情况,估计之一(W1或W2)将为零。

在高维空间中,许多权重参数将同时等于零。
这说明了岭回归的一个明显缺点:模型的可解释性。它将把不重要的预测因子的系数缩小到趋近于 0,但永不达到 0。也就是说,最终的模型会包含所有的预测因子。但是,在 Lasso 中,如果将调整因子 λ 调整得足够大,L1 范数惩罚可以迫使一些系数估计值完全等于 0。因此,Lasso 可以进行变量选择,产生稀疏模型。注意到w取得稀疏解意味着初始的d个特征中仅有对应着w的非零分量的特征才会出现在最终模型中,于是求解L1范数正则化的结果时得到了仅采用一部分初始特征的模型;换言之,基于L1正则化的学习方法就是一种嵌入式特征选择方法,其特征选择过程和学习器训练过程融为一体,同时完成。

深度学习里面怎么防止过拟合?(data aug;dropout;multi-task learning)如何防止过拟合,我跟他列举了4中主要防止过拟合方法:Early Stopping、数据集扩充、正则化法以及dropout,还详细跟他说了每种方法原理及使用的场景,并解释我在哪些项目里具体用到了这些方法

DropOut
神经网络正则化的另一种非常流行的方法是DropOut。这个想法实际上非常简单-我们神经网络的每个单元(属于输出层的单元除外)都具有在计算中被暂时忽略的概率p。超级参数p称为丢失率,通常将其默认值设置为0.5。然后,在每次迭代中,我们根据分配的概率随机选择掉落的神经元。结果,每次我们使用较小的神经网络时。下面的可视化图显示了遭受丢失的神经网络的示例。我们可以看到在每次迭代中如何停用第二层和第四层的随机神经元。

这种方法的有效性非常令人惊讶并且违反直觉。毕竟,在现实世界中,如果工厂的经理每天随机选择雇员并将其送回家,那么工厂的生产率就不会提高。让我们从单个神经元的角度来看这个问题。由于在每次迭代中都可以随机消除任何输入值,因此神经元会尝试平衡风险,而不偏爱任何功能。结果,权重矩阵中的值变得更均匀地分布。该模型希望避免提出的解决方案不再有意义的情况,因为该解决方案不再具有来自非活动功能的信息。

earlier stop

在实践中,每隔几次迭代对我们的模型进行抽样并检查其与验证集的配合情况。将保存比以前的所有模型性能更好的每个模型。我们还设置了一个限制,即没有记录进度的最大迭代次数。当超过该值时,学习停止。尽管尽早停止可以大大改善我们模型的性能,但实际上,它的应用使模型优化的过程大大复杂化。很难与其他常规技术结合使用。

机器学习中使用「正则化来防止过拟合」到底是一个什么原理?为什么正则化项就可以防止过拟合?https://www.zhihu.com/question/20700829

机器学习中常常提到的正则化到底是什么意思?https://www.zhihu.com/question/20924039

什么是正则项,L1范式,L2范式区别是什么,各自用在什么地方?L1 与 L2 的区别以及如何解决 L1 求导困难;

https://www.cnblogs.com/nxf-rabbit75/p/9954394.html#auto-id-20

L1正则为什么能让系数变为0?L1正则怎么处理0点不可导的情形?(近端梯度下降)
参见我的另一篇详细文章

L0,L1,L2正则化(如果能推导绝对是加分项,一般人最多能画个等高线,L0是NP问题)其实上面的这些问题基本都能在《李航:统计学习方法》《周志华:机器学习》里面找到,能翻个4,5遍基本就无压力了

避免过拟合策略、如何提高模型泛化能力、L1与L2正则区别,优缺点、

生成式,判别式模型、深度学习这块了解多少、

父亲有两个孩子,孩子A和孩子B。孩子A具有特殊的性格,但他可以深入学习所有东西。小孩子B具有特殊的性格,而他只能学习所见事物之间的差异。
晴天,父亲将两个孩子(孩子A和孩子B)带到动物园。这个动物园很小,只有狮子和大象两种动物。他们从动物园出来后,父亲给他们看了一只动物,问他们“这只动物是狮子还是大象?”
孩子A,孩子突然根据他在动物园内看到的东西,在纸上画了狮子和大象的图像。他将这两个图像与之前站立的动物进行了比较,并根据与图像和动物最接近的匹配进行了回答,他回答:“动物是狮子”。
根据所学的不同属性,孩子B仅知道差异,他回答:“动物是狮子”。
在这里,我们可以看到他们俩都在寻找动物,但是学习的方式和寻找答案的方式完全不同。在机器学习中,我们通常将孩子A称为生成模型,将孩子B称为判别模型。
通常,判别模型‌为类之间的决策边界建模。生成模型‌显式地模拟每个类的实际分布。最后,他们俩都在预测条件概率P(动物|特征)。但是,两种模型都学习不同的概率。
生成模型‌学习联合概率分布p(x,y)。它借助贝叶斯定理预测条件概率。判别模型学习条件概率分布p(y | x)。这两种模型通常用于有监督的学习问题中。

在数学中
‌训练分类器涉及估算f:X-> Y或P(Y | X)
生成分类器
假定P(Y),P(X | Y)的一些函数形式
直接从训练数据估计P(X | Y),P(Y)的参数
使用贝叶斯规则计算P(Y | X)
区分性分类器
假设P(Y | X)的一些函数形式
直接从训练数据估计P(Y | X)的参数
例子:
生成分类器
‌朴素贝叶斯
贝叶斯网络
马尔可夫随机场
Mar隐马尔可夫模型(HMM)
区分性分类器
‌逻辑回归
标量向量机
neural传统神经网络
neighbor最近的邻居
条件随机场(CRF)

如何克服过拟合,欠拟合
之前文章写到过

https://editor.csdn.net/md/?articleId=105983507

L1正则为什么可以把系数压缩成0,坐标下降法的具体实现细节

https://www.coursera.org/lecture/ml-regression/coordinate-descent-uHBq7

首先确定目标:

在这里插入图片描述
f是凸且光滑的

当n大时,计算完整的梯度,这意味着梯度下降不一定总是有效的。 观察到对于非约束问题,当且仅当∇f(x ∗)= 0,即∇if(x ∗)= 0,∀i= 1时,x ∗是最优解。 。 。 ,n。 为了找到最佳解决方案,沿着每个坐标方向进行搜索是有意义的。 如果在某个点上目标并非在每个坐标方向上都在减小,那么我们已经达到了最佳状态。 这激发了所谓的坐标最小化算法,或者也称为坐标下降算法。
坐标下降算法是无导数优化方法。

坐标最小化坐标下降算法的总体思路如下所示

在这里插入图片描述

  1. 目标函数值不减:f(x(0))≥f(x(1))≥…
  2. 如果f是凸且光滑的,则算法收敛至全局最小值(最优解)
  3. 如果f是非凸的或什至不是平滑的,则该算法可能根本不会收敛。 示例:
    f(x,y)= | x + y | +3 | x−y |。如果以(x,y)=(-1,-1)开始,算法将不会移动。

在这里插入图片描述
假设算法在非平滑情况下位于拐角点;然后可以尝试两个方向,如红色箭头所示。但是,沿着这两个方向的每一步都会增加目标函数的值,因此即使两步之和使算法更接近最优值,算法也不会采取任何措施。对于右侧的平滑情况,我们看到了严格的收敛。
该框架可以被概括用于块更新,例如。您可以将决策变量拆分为多个块,然后可以循环更新每个块。这通常称为块坐标下降。在我们有两个拖曳块的情况下,块坐标下降只是减少到交替最小化。
为什么L1正则可以实现参数稀疏,而L2正则不可以?为什么L1很多系数可以被压缩为0,L2是被压缩至接近于0?

对于稀疏模型,我们考虑一个模型,其中许多权重为0。因此,让我们对L1正则化如何更有可能创建0权重进行推理。

考虑一个由权重(𝑤1,𝑤2,…,𝑤𝑚)组成的模型。
使用L1正则化,您可以通过损失函数𝐿1(𝑤)惩罚模型
在这里插入图片描述
通过L2正则化,您可以用损失函数𝐿2(𝑤)惩罚模型
在这里插入图片描述
如果使用梯度下降,则将逐步使权重沿梯度的相反方向变化,步长为𝜂乘以梯度。 这意味着,较陡峭的渐变将使我们采取更大的步幅,而较平缓的渐变将使我们采取更小的步幅。 让我们看一下梯度(在L1情况下为次梯度):
在这里插入图片描述
如果我们绘制了损失函数及其对于仅由一个参数组成的模型的导数,则对于L1和L2如下所示:
在这里插入图片描述
注意,对于𝐿1,除了𝑤1= 0时,梯度为1或-1。 这意味着无论权重值如何,L1正则化将以相同步长将任何权重移向0。 相反,我们可以看到,随着权重接近0,𝐿2梯度会朝着0线性减小。因此,L2正则化也将使任何权重都趋向0,但是当权重接近0时,步长将越来越小。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值