聊聊group lasso

0?wx_fmt=jpeg

这次聊聊线性模型中的group lasso (lasso即为将模型中权重系数的一阶范数惩罚项加到目标函数中)惩罚项。

假设Y是由N个样本的观测值构成的向量,X是一个大小为N * p的特征矩阵。在group lasso中,将p个特征分成L组,每个组中特征个数为Pi,其中i的取值为1,2,..., L。将第i个特征组对应的矩阵记为Xi,对应的系数向量记为βi。

容易看出,group lasso是对lasso的一种推广,即将特征分组后的lasso。显然(好久没用这个词了),如果每个组的特征个数都是1,则group lasso就回归到原始的lasso。

group lasso 在特征组内不具有稀疏性。为了使得特征组内的特征具有稀疏性,只需参照原始的lasso中的做法,在目标函数中加入一个惩罚项,这个惩罚项基于对所有特征对应系数的一阶范数。

为了求解group lasso, 可以首先假设组内特征是正交的,针对这种情形可以利用分块坐标下降法求解,对于非正交的情形,可以首先对组内特征施加正交化。

示例:

假设有200个观测样本,特征维数为100, 特征来自10组。观测值服从标准高斯分布,组内特征的相关系数是0.2, 组间特征的相关系数为0,每个观测值都加入了标准差为4的高斯噪声。

图2给出了lasso, group lasso以及sparse group lasso中所得估计系数的符号,每种方法都利用了已经调节好的参数(其中sparse group lasso 中的λ1 = λ2)。

图3给出了组内和每个特征的分类错误率,可以看出,sparse group lasso 很好地折衷了lasso和group lasso, 这种方法能够使得组内特征集和整体特征集合都具有稀疏性。

将原始的lasso融入到group lasso就可以得到sparse group lasso,为了数学上更清晰的区别group lasso和sparse group lasso,下面的公式 1 2分别是相应的目标函数。

0?wx_fmt=png0?wx_fmt=png

sparse group lasso 算法步骤如下:

0?wx_fmt=png

其中 (8)如下图:

0?wx_fmt=png

0?wx_fmt=png

0?wx_fmt=png

图2

0?wx_fmt=png

图3

总结一下(发表下愚见),group lasso 归根到底即为对特征分组,这种特性比较适合用于多模态,比如图像+语音+文字,也比较适用于多种组别的特征,比如电子商务中的用户属性+产品属性+上下文属性。

 

参考资料:

http://statweb.stanford.edu/~tibs/ftp/sparse-grlasso.pdf

http://stat.rutgers.edu/home/tzhang/papers/arxiv0901.2962.pdf

Friedman J, Hastie T, Tibshirani R. A note on the group lasso and a sparse group lasso[J]. arXiv preprint arXiv:1001.0736, 2010.

Yuan M, Lin Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68(1): 49-67.

Meier L, Van De Geer S, Bühlmann P. The group lasso for logistic regression[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(1): 53-71.

Simon N, Tibshirani R. Standardization and the group lasso penalty[J]. Statistica Sinica, 2012, 22(3): 983.

Roth V, Fischer B. The group-lasso for generalized linear models: uniqueness of solutions and efficient algorithms[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 848-855.

Jacob L, Obozinski G, Vert J P. Group lasso with overlap and graph lasso[C]//Proceedings of the 26th annual international conference on machine learning. ACM, 2009: 433-440.

  • 3
    点赞
  • 55
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值