为什么L1 regularization可以用来做特征选择

最新推荐文章于 2023-01-29 19:19:58 发布

chengqi9444

最新推荐文章于 2023-01-29 19:19:58 发布

阅读量1.1k

点赞数

原文链接：https://my.oschina.net/u/2283449/blog/656358

版权

根据最优化理论，在损失函数上增加正则项其实等价于正则项有限制条件的情况下最小化损失函数。例如，带正则项的目标函数为：

（1）

等价于在条件

（2）

下，最小化least squares的损失函数。这两种等价形式可以根据拉格朗日乘子法关联起来。（1）中的Lambda越大，（2）中的Yita就越小。

那么很显然，选择更大的Lambda，就会使得w的值限制更严格，趋于更小的值。

在（2）中，不同的q值，对应了w的不同的可行解（？）空间。下图是2维参数空间里，不同q值产生的可行解空间的边界。坐标轴分别是我w1 和 w2

如果目标函数是凸的，且最优解不在可行解空间内（否则正则项不起作用），那么显然q <= 1 相比于 q > 1的情况，会有更大的可能性在坐标轴上取得极小值——该坐标轴对应的w值为0。

reference：

http://www.andrewng.org/portfolio/efficient-l1-regularized-logistic-regression/

转载于:https://my.oschina.net/u/2283449/blog/656358

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chengqi9444

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

特征工程之特征选择

修炼之路

03-11

9344

一、为什么要做特征选择？如果一个模型在训练数据上的表现比在测试数据上要好很多，这就表示这个模型过拟合了。过拟合是指模型的参数对于训练数据的特定观测值拟合的非常接近，而训练数据的分布于真实数据的分布并不一致，所以模型具有较高的方差。产生过拟合的原因是因为，对于训练数据集上的模型过于复杂，通常我们可以通过以下几种方式来降低过拟合：1、收集更多的训练数据2、通过正则化引入罚项3、选择一个参数相对较少的简...

机器学习------L1、L2规范化（L1 Regularization、L1 Regularization）

qq_36427732的博客

07-28

1万+

取自孙明的＂数字图像处理与分析基础＂ 1. 引入——病态问题和约束 &amp;amp;amp;amp;nbsp;通过改变模型的拟合能力来避免过拟合并不是一件容易的事情，更常用的办法是使用规范化对模型的参数进行一定的约束。下面来考虑一个非常简单的例子，求下面方程的解： 2x−y+2=02x−y+2=02x-y+2=0 &amp;amp;amp;amp;nbsp;这是一个二元一次方程，有无数个解，都在下图1a所示的这条直线上。图1 病态方程求解和...

参与评论您还未登录，请先登录后发表或查看评论

机器学习面试中常问到的算法问题1----L1正则化与L2正则化的区别以及为什么L1正则化可以产生稀疏矩阵，L2正则化可以防止过拟合**

qq_41978536的博客

04-26

1966

一、L1正则化与L2正则化的区别以及为什么L1正则化可以产生稀疏矩阵，L2正则化可以防止过拟合正则化（regularization）：机器学习中几乎都可以看到损失函数后面会添加一个额外项，常用的额外项一般有两种，一般英文称作L1-norm和L2-norm，中文称作 L1正则化和 L2正则化，或者 L1范数和 L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失...

为什么L1正则化会有稀疏性？为什么L1正则化能进行内置特征选择？

Daweixi的博客

06-03

1292

周志华老师机器学习西瓜书(第二章)——模型评估与选择，同时解释为什么L1可以做特征选择，其系数为0（L2正则类似）

不负如来不负卿

08-04

2771

久仰西瓜书大名，之前拜读过，没做笔记又忘了。重新来过，做下笔记以备忘。本章节主要讲诉三个方面内容，一是过拟合，包括该现象的解释、产生与解决办法，二是说明模型的衡量指标，三是方差偏差的概念。过拟合通俗来说，就是在训练集集合上很好，在测试集上表现不好，泛化能力不好。过拟合现象产生原因一般有三种[参考Ref[2]]： 1) 数据噪声， 2) 训练集数据不足 3）模型过于复杂 ...

L1、L2范数理解--Ridge以及Lasso回归

qq_37534947的博客

12-05

7245

文章目录一：范数对比二：范数作用三：L0范数和L1范数之间的比较四：L1范数和L2范数的比较五：L1范数和L2范数之反向传播的理解一：范数对比 L0范数: 指向量中非0的元素的个数。(L0范数很难优化求解) L1范数: 指向量中各个元素绝对值之和 L2范数: 指向量各元素的平方和然后求平方根注: L0范数,指向量中非零元素的个数。无穷范数,指向量中所有元素的最大绝对值。二：范数作用 L1范数：可以进行特征选择，即让特征的系数变为0. L2范数：可以防止过拟合，提升模型的泛化能力，有助于处理

FeatureSelection_patternrecognition_L1正则化_L1正则化参数_特征选择_

10-01

L1正则化（L1 regularization）是一种常用的特征选择方法，它通过引入惩罚项来抑制部分特征的权重，使其接近于零，从而实现特征的稀疏性。本文将深入探讨L1正则化的概念、作用以及如何在实际代码中应用。 L1正则化...

Convex Relaxation with Log-Determinant Divergence-L1 Regularization for 3D Shape Reconstruction

02-08

在给定文件中，论文标题“Convex Relaxation with Log-Determinant Divergence-L1 Regularization for 3D Shape Reconstruction”和描述中提到了解决这一问题的关键技术，即凸松弛方法结合对数行列式散度-L1正则化...

L1 and L2 Regularization正则化损失函数

剥石榴

07-09

1394

In mathematics, statistics, and computer science, particularly in machine learning and inverse problems, regularization is the process of adding information in order to solve an ill-posed problem or to prevent overfitting.[1]

Data_Science:特征选择-基本特征选择方法

03-09

这些方法通常提供内置的特征重要性度量，可以用来进行特征选择。 7. **Wrapper方法**：这类方法通过系统地包括或排除特征并评估模型性能来选择特征，如 forwards selection（前向选择）、backwards elimination（后...

【应用】【正则化】L1、L2正则化

weixin_39923556的博客

02-27

3284

L1正则化的作用：特征选择从可用的特征子集中选择有意义的特征，化简机器学习问题。著名的LASSO（Least Absolute Shrinkage and Selection Operator）模型将L1惩罚项和线性模型结合，饼使用最小二乘代价函数。L1正则化导致模型参数的稀疏性，被广泛地用于特征选择（feature selection）机制。L2正则化的作用：PRML书中描述“focus on quadratic both for its practical importance and analy.

机器学习小知识——神经网络的L1和L2正则化

chenwei的博客

11-05

2836

有时候在求解规划问题时，我们想要让得到的解满足一定的条件，换句话说，如果得到的解不能满足一定的条件我们更加倾向于拒绝它，而且这种倾向还是比较大的。这种情况在实际应用中比较常见，比如在准备出去旅行时，我们肯定不太希望背包里面放置特别重的东西，这时候就可以加一个条件，如果物品的重量大于一个给定的临界值，那么它的价值将大大降低，而这种大大降低可以通过给其添加一个很大的系数实现。同样的，在求解神经网络损失函数的最小值时，我们希望自变量权重向量www满足一定的条件，如果不满足，就给其狠狠地惩罚一下。这时候我们就会在

L1、L2正则化的原理及适用场景

xiao_ling_yun的博客

01-29

4562

L1和L2正则化的适用范围；L1为何比L2更容易获得稀疏解

L1正则化和L2正则化（从解空间角度）

积一时之步，臻千里之遥程

11-16

2598

文章目录一、什么是过拟合？二、为什么模型会过拟合？三、如何防止模型过拟合？四、为什么正则化能够防止过拟合？4.2 为什么L1正则具有稀疏性或者说L1正则能够进行特征选择？4.2.1 从解空间的形状角度来看例子（二维）4.3 L1正则和L2正则的区别一、什么是过拟合？过拟合与欠拟合问题过拟合（overfitting）——额，就是学习器把训练样本学得“太好了”，以至于对测试样本“不知所措”。更形象的说就是，考试之前把模拟卷翻来覆去做，模拟题倒是做得非常好，结果考试拉胯了~拐求欠拟合（underfitti

正则化的作用以及L1和L2正则化的区别

orangerfun的博客

03-22

3140

https://blog.csdn.net/liuweiyuxiang/article/details/99984288

特征选择L1正则化与过拟合L2正则化。

斯斯的博客

04-10

4737

我们将属性称为特征，针对各种特定的学习任务，特征的重要程度不同，对当前任务有用的属性称为“相关特征”，没什么用的属性称为“无关特征”，从给定的特征集合中选择出相关特征子集的过程，就是特征选择。特征选择：过滤式选择，包裹式选择，嵌入式选择。其中嵌入式选择：是将特征选择过程与学习器训练过程融为一体。即在训练的同事自动进行了特征选择。对于过拟合问题，我们经常引入正则化项，L1，L2正则化都有助于降低过拟...

L1正则化进行特征选择

无

05-16

4916

介绍

L1正则化和L2正则化的详细直观解释