为什么L1正则可以产生稀疏模型(很多参数=0), 而L2 正则不会出现很多参数为0的情况?
(1)通过导数值进行分析:在进行梯度下降时,对于L1的正则(权值向量w中各个元素的绝对值之和)求导得到的都是1+1+······(有多项1相加),而L2正则化(权值向量w中各个元素的平方和)求导要对于各个特征进行偏导。对于L1正则导数没有减少的可能性,因为都是1。而对L2正则来说的话速度就会比较慢了。
(2)通过正则化的函数图像进行分析:要让Obj(w)最小,反解出w*(最优解的特征参数),这就把 w 的解限制在函数图像区域内,同时使得经验风险尽可能小,因此取交点就是最优解,绝对值的函数图可以看出是一个菱形,因为L1正则图像区域是有棱角的,所以更容易在棱角取得交点,从而导致出现参数为0的情况。L1绝对值的对应图像是菱形,L2的平方和方程的对应图像是一个圆形。L2是更好接近代价函数的图像,但是代价函数要够小才能保持经验风险降至最低,以达到要求得的代价函数。这里对应的L1可以产生稀疏模型(很多参数=0)是由于菱角点上只能有某个w参数不为0,图像可以得知其他的为0.
L1正则化与L2正则化
最新推荐文章于 2024-05-18 20:08:10 发布