为什么L1 regularization可以用来做特征选择

根据最优化理论,在损失函数上增加正则项其实等价于正则项有限制条件的情况下最小化损失函数。例如,带正则项的目标函数为:

 (1)

等价于在条件

 (2)

下,最小化least squares的损失函数。这两种等价形式可以根据拉格朗日乘子法关联起来。(1)中的Lambda越大,(2)中的Yita就越小。

那么很显然,选择更大的Lambda,就会使得w的值限制更严格,趋于更小的值。

在(2)中,不同的q值,对应了w的不同的可行解(?)空间。下图是2维参数空间里,不同q值产生的可行解空间的边界。坐标轴分别是我w1 和 w2

如果目标函数是凸的,且最优解不在可行解空间内(否则正则项不起作用),那么显然q <= 1 相比于 q > 1的情况,会有更大的可能性在坐标轴上取得极小值——该坐标轴对应的w值为0。


reference:

http://www.andrewng.org/portfolio/efficient-l1-regularized-logistic-regression/

转载于:https://my.oschina.net/u/2283449/blog/656358

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
特征选择是机器学习中的一个重要步骤,它用于从给定的特征集合中选择最相关的特征,以提高模型的性能和效果。Python提供了多种特征选择优化算法,以下是其中几种常用的算法: 1. 递归特征消除(Recursive Feature Elimination,RFE):RFE是一种基于模型的特征选择方法,它通过反复训练模型并剔除最不重要的特征来进行特征选择。在每一轮迭代中,RFE会剔除当前模型中最不重要的特征,直到达到指定的特征数量或达到指定的性能指标。 2. 方差阈值(Variance Threshold):方差阈值是一种基于特征方差的特征选择方法。它通过计算特征的方差,并将方差低于指定阈值的特征剔除。方差阈值方法适用于处理方差较低的特征,因为这些特征往往对模型的预测能力贡献较小。 3. 互信息(Mutual Information):互信息是一种基于信息论的特征选择方法,它衡量了特征与目标变量之间的相关性。互信息方法可以用于选择与目标变量高度相关的特征,从而提高模型的预测性能。 4. L1正则化(L1 Regularization):L1正则化是一种基于稀疏性的特征选择方法,它通过在模型的损失函数中引入L1范数惩罚项,促使模型选择少量重要的特征。L1正则化方法适用于处理高维数据集,可以帮助减少特征维度并提高模型的泛化能力。 5. 遗传算法(Genetic Algorithm):遗传算法是一种基于进化思想的优化算法,它通过模拟自然选择、交叉和变异等过程来搜索最优解。在特征选择中,遗传算法可以用于搜索最佳特征子集的组合,以最大化模型的性能。 这些算法可以根据具体的问题和数据集选择合适的方法进行特征选择优化。你可以根据自己的需求和数据特点选择适合的算法来进行特征选择

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值