1.L1和L2的区别
L1:预测值与实际值差值的绝对值之和
L2:预测值与实际值差值的平方之和
2.L1为什么能稀疏矩阵L2不能:
参考链接:https://blog.csdn.net/autocyz/article/details/76511527,
矩阵指的是模型参数组成的矩阵,稀疏是指模型参数很多是0。
为什么L1可以呢,从一个特征的模型来观察,损失函数为 F(w)=f+ b|w| ,对于参数w,增加后一项相对于引入了w的拉普拉斯先验,从拉普拉斯先验的函数可看出,w分布集中在0点附近,因此引入拉普拉斯先验后w为0值变多。L2相当于引入了高斯变换,可看出高斯变换平缓,因此不会出现0点聚集的情况
3.L2为什么能解决过拟合
参考:https://blog.csdn.net/jackie_zhu/article/details/5213459
过拟合通常是因为特征系数过大导致,因此为了防止过拟合,可以对系数加一定的限制,L2就是相当于让系数的平方小于常数C,熟悉拉格朗日乘数法的可知道,这种有约束的最优化问题可以转换为求“最优化目标函数+约束函数 的导数为0”的问题。