聊聊group lasso

最新推荐文章于 2023-02-21 18:57:58 发布

frank_hetest

最新推荐文章于 2023-02-21 18:57:58 发布

阅读量1.6w

点赞数 3

0?wx_fmt=jpeg

这次聊聊线性模型中的group lasso （lasso即为将模型中权重系数的一阶范数惩罚项加到目标函数中）惩罚项。

假设Y是由N个样本的观测值构成的向量，X是一个大小为N * p的特征矩阵。在group lasso中，将p个特征分成L组，每个组中特征个数为Pi，其中i的取值为1，2，..., L。将第i个特征组对应的矩阵记为Xi，对应的系数向量记为βi。

容易看出，group lasso是对lasso的一种推广，即将特征分组后的lasso。显然（好久没用这个词了），如果每个组的特征个数都是1，则group lasso就回归到原始的lasso。

group lasso 在特征组内不具有稀疏性。为了使得特征组内的特征具有稀疏性，只需参照原始的lasso中的做法，在目标函数中加入一个惩罚项，这个惩罚项基于对所有特征对应系数的一阶范数。

为了求解group lasso，可以首先假设组内特征是正交的，针对这种情形可以利用分块坐标下降法求解，对于非正交的情形，可以首先对组内特征施加正交化。

示例：

假设有200个观测样本，特征维数为100，特征来自10组。观测值服从标准高斯分布，组内特征的相关系数是0.2，组间特征的相关系数为0，每个观测值都加入了标准差为4的高斯噪声。

图2给出了lasso, group lasso以及sparse group lasso中所得估计系数的符号，每种方法都利用了已经调节好的参数（其中sparse group lasso 中的λ1 = λ2）。

图3给出了组内和每个特征的分类错误率，可以看出，sparse group lasso 很好地折衷了lasso和group lasso，这种方法能够使得组内特征集和整体特征集合都具有稀疏性。

将原始的lasso融入到group lasso就可以得到sparse group lasso，为了数学上更清晰的区别group lasso和sparse group lasso，下面的公式 1 2分别是相应的目标函数。

0?wx_fmt=png

sparse group lasso 算法步骤如下：

0?wx_fmt=png

其中（8）如下图：

0?wx_fmt=png

图2

0?wx_fmt=png

图3

总结一下（发表下愚见），group lasso 归根到底即为对特征分组，这种特性比较适合用于多模态，比如图像+语音+文字，也比较适用于多种组别的特征，比如电子商务中的用户属性+产品属性+上下文属性。

参考资料：

http://statweb.stanford.edu/~tibs/ftp/sparse-grlasso.pdf

http://stat.rutgers.edu/home/tzhang/papers/arxiv0901.2962.pdf

Friedman J, Hastie T, Tibshirani R. A note on the group lasso and a sparse group lasso[J]. arXiv preprint arXiv:1001.0736, 2010.

Yuan M, Lin Y. Model selection and estimation in regression with grouped variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68(1): 49-67.

Meier L, Van De Geer S, Bühlmann P. The group lasso for logistic regression[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2008, 70(1): 53-71.

Simon N, Tibshirani R. Standardization and the group lasso penalty[J]. Statistica Sinica, 2012, 22(3): 983.

Roth V, Fischer B. The group-lasso for generalized linear models: uniqueness of solutions and efficient algorithms[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 848-855.

Jacob L, Obozinski G, Vert J P. Group lasso with overlap and graph lasso[C]//Proceedings of the 26th annual international conference on machine learning. ACM, 2009: 433-440.