本文重点
正则化包含L1正则化和L2正则化,本文将介绍一下这两个正则化有什么不同?
正则化
L1正则化
L1正则化目的是减少参数的绝对值总和,定义为:
L2正则化
L2正则化的目的是减少参数平方的总和,定义为:
二者的区别?
1、L1正则化会使得某一维的权重为0,产生稀疏权重矩阵。L2正则化的最优的参数值很小概率会出现在坐标轴上,因此每一维的参数都不会是0。
2、L1正则化假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。L2正则化假设权重w的先验分布为高斯分布,由最大后验概率估计导出