L1:
其中第二项为L1正则化项,对w求偏微分:
则第i个w的更新式为:
可以看到,L1正则化使得每次更新时,固定加上或减去某一个常数,当w为正时做减法,反之做加法。
这样一来使得值偏小的w,尽可能为0,以达到简化模型的目的。
这里值偏小的w可以认为是‘对应于与输出无关的输入’,即该特征与目标无关联。(与L0正则化相似)
L2:
其中第二项为L2正则化项,对w求偏微分:
则第i个w的更新式为:
可以看到,L2正则化的作用是减去梯度之前先将w固定缩小一个比例,我们可以认为最后使得w尽量的接近于0,以达到简化模型的目的。
参考:
[1] https://baijiahao.baidu.com/s?id=1595711904189222402&wfr=spider&for=pc