网上搜博客,大多数讲的都是L0是个NP难问题,难于求最优解,或者L1是L0的最优凸近视,但没有说具体细节。
我来分析一下:
L0指向量中非零元素的个数,以下我以C++代码来分析。
float a[128];
向量a中有128个元素,我们现在用L0正则化来稀疏向量a,使其中的非零元素变为64个。
去掉a中原有0值元素,剩余x个非零元素。现在有2种情况
情况一:
x>64,现在我们要在剩余的x个元素中把y=(64-x)个元素归零,到底选哪几个呢?我想到保留较大值,归零最小值,但在a中同一位置的元素,这次训练的权重较大,下次训练的权重就可能较小了,这种方法行不通,因为对于同一特征向量,清零的位置是固定的,如果不固定,那就没有训练的意义了,如果用随机选择的化,那就是dropout规则化了。我还想到一种方法就是在训练完成后,选择较小值清零,但这样就不存在NP难问题。所以我也没搞懂如果每次选了都用L0正则化特征向量,L0到底基于怎样的规则来选择哪个位置的元素清零;或者在训练完毕后选择较小值清零,但就不存在NP难问题了。
情况2:
x<64,不做操作
关于L1为啥是L0的最优凸优化,我研究下L1再来分析