1 均方损失
第一种是均方损失,1/2和平方是为了方便求导。
其中:蓝色曲线是当Y=0时,变换预测值Y‘的函数
绿色是似然函数
橙色表示梯度,梯度下降时,对负梯度方向会更新梯度,所以它的导数就是可以看出参数的一个更新。
2 绝对值损失
这种定义非常简单:蓝色时损失函数曲线,和上面一样的,绿色是似然函数,橙色由于绝对值的求导问题,因为零点不可导,所以在1和-1之间。梯度永远是常数,权重更新不太大,更稳定。
但是缺点就是,零点处不可导,且优化后期不稳定。
3 Huber's robust损失
这个损失结合了上面两种损失的一个优缺点,主要是解决了绝对值函数趋近于零点时的缺点,三条线的意义是一样的。主要是优化前期稳定和优化后期的平滑问题得到了解决。