L1正则化目的:减少参数的绝对值总和。
L2正则化目的:减少参数平方的总和。
由L1正则化的定义可以看出最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0,产生稀疏权重矩阵;
而L2正则化的最优参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0;
另外一个区别就是:
L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。
L1正则化目的:减少参数的绝对值总和。
L2正则化目的:减少参数平方的总和。
由L1正则化的定义可以看出最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0,产生稀疏权重矩阵;
而L2正则化的最优参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0;
另外一个区别就是:
L1正则化可通过假设权重w的先验分布为拉普拉斯分布,由最大后验概率估计导出。
L2正则化可通过假设权重w的先验分布为高斯分布,由最大后验概率估计导出。