最近复习正则约束,考虑到从未本质上考虑过 L1 正则稀疏性问题,现查阅相关资料,总结整理如下:
1. 从优化问题来看
首先,我们要优化的是这个问题 min w E D ( w ) + λ E R ( w ) \min\limits_w E_D(w) + \lambda E_R(w) wminED(w)+λER(w)。
其次, min w E D ( w ) + λ E R ( w ) \min\limits_w E_D(w) + \lambda E_R(w) wminED(w)+λER(w) 和 min w E D ( w ) s . t . E R ( w ) ⩽ η \min\limits_w E_D(w) \ \ \ \ \ s.t. E_R(w) \leqslant \eta wminED(w) s.t.ER(w)⩽η
这个优化问题是等价的,即对一个特定的 λ \lambda λ 总存在一个 η \eta η 使得这两个问题是等价的(这个是优化里的知识)。
最后,下面这个图表达的其实
min w E D ( w ) s . t . E R ( w ) ⩽ η \min\limits_w E_D(w) \\s.t. E_R(w) \leqslant \eta wminED(w)s.t.ER(w)⩽η
这个优化问题,把 w w w 的解限制在黄色区域内,同时使得经验损失尽可能小。
下图是一个更直观的解读: