本文简单介绍这几种套索模型(Lasso)的概念,推导到后期再研究补充;
这种模型的功能:实现稀疏特征的选择和模型参数的估计;
1 普通套索模型
1.1 线性套索模型
Y=XW+b
则:
argminW12||XW−Y||22+λ||W||1
套索模型使用L1范数做为其惩罚函数,实现了特征的稀疏选择。
2 组套索模型
当特征之间存在某种组结构时,可以将组结构信息作为先验,然后进行特征分组,最后使用L1范数构造罚函数,这就是组套索模型(Group Lasso);
这种思想也成为组稀疏模型,上文提到的是特征稀疏模型;
对于线性模型:
Y=XW+b
其中, Y∈RN , X∈RN∗P , W={w1,w2,...,wp},W∈RP ,P代表特征的个数;
现在特征之间存在组结构信息,有 J 个组,
利用罚函数优化模型: αj 指示组权重,可以全局共享;
argminW||Y−XW||22+λ∑j=1Jαj||Wj||2
进一步的,我们可以看到惩罚项其实是 Wj 的L2范数,然后再求组的L1范数;称为 L2,1范数,,这种模型实现了 特征组的选择;
推广: L∞,1,Lp,1 等;
3 重叠组套索模型
普通组要求组之间互为正交,但是有时候会出线重叠的情况;
则构造处以下目标函数:
argminW||Y−XW||22+λ∑gj∈G|J|αgj||Wgj||2
由于不同组之间共享了特征变量,块坐标法不适用;
轮换方向乘子法可以解决这类问题:为此需要引入辅助变量,做等式约束变换,最后利用乘子罚函数法获得最优解:
minW||Y−XW||22+λ∑gj∈G|J|αgj||Zgj||2s.t.Zgj=Wgj,gj∈G
构造乘子罚函数:
L(W,ξ,Z)=||Y−XW||22+λ∑gj∈G|J|αgj||Zgj||2+ω2∑gj∈Gξgj(Zgj−Wgj)+∑gj∈G||Zgj−Wgj||22
这里, ω 是惩罚因子,很大的正数; ξ 是拉格朗日变量;
这样就可以直接用轮换方向乘子的方法进行求解;
4 其他
还有很多模型:树套索模型,混合模型等;