文章目录 L1 loss L2 loss Smooth L1 loss 三者区别 常见问题解释 一、L1 loss、L1正则、L1范数有何区别? 二、L1正则为何会引起特征稀疏? L1 loss L1 loss常用别称: L1范数损失 最小绝对偏差(LAD) 平均绝对值误差(MAE) 其中,yi是真实值,f(xi)是预测值,n是样本点个数 优缺点? 优点:无论对于什么样的输入值,都有着稳定的梯度,不会导致梯度爆炸问题,具有较为稳健性的解 缺点:在中心点是折点,不能求导,梯度下降时要是恰好学习到w=0就没法接着进行了 什么时候使用? 回归任务 简单模型 神经网络通常比较复杂,直接使用L1 loss作为损失函数的非常少 L2 loss L2 loss常用别称: L2范数损失 最小均方误差(LSE) 均方误差(MSE) 其中,yi是真实值,f(xi)是预测值