损失函数总结

最新推荐文章于 2024-12-19 07:00:00 发布

Polaris47

最新推荐文章于 2024-12-19 07:00:00 发布

阅读量619

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习人工智能机器学习损失函数计算机视觉

本文链接：https://blog.csdn.net/Polaris47/article/details/89361286

深度学习专栏收录该内容

19 篇文章

订阅专栏

1. 均方误差损失函数（回归问题）

注意：当我们用MSE做为损失函数的时候，最好别用sigmoid，tanh这类的激活函数。从数学的角度来理解，sigmoid函数当x趋于正无穷或者负无穷的时候，函数值接近于1和0，也就是当自变量大于一定值的时候，函数变得非常平缓，斜率比较小，甚至变为0。

然后当斜率很小的时候，他的导数就很小，而BP在反向传播更新参数的时候，就是要靠导数。

新的参数 = 旧的参数 + 梯度*学习率

这样的话，参数基本就会保持不变

2. 交叉熵损失函数（分类问题）

求导之后，导函数中没有激活函数的导数那一项。这样就巧妙的避免了激活函数的饱和性问题。

3. softmax loss

可化简为：

举个例子：假设一个5分类问题，然后一个样本I的标签y=[0,0,0,1,0]，也就是说样本I的真实标签是4，假设模型预测的结果概率（softmax的输出）p=[0.1,0.15,0.05,0.6,0.1]，可以看出这个预测是对的，那么对应的损失L=-log(0.6)，也就是当这个样本经过这样的网络参数产生这样的预测p时，它的损失是-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15]，这个预测结果就很离谱了，因为真实标签是4，而你觉得这个样本是4的概率只有0.1（远不如其他概率高，如果是在测试阶段，那么模型就会预测该样本属于类别3），对应损失L=-log(0.1)。那么假设p=[0.05,0.15,0.4,0.3,0.1]，这个预测结果虽然也错了，但是没有前面那个那么离谱，对应的损失L=-log(0.3)。我们知道log函数在输入小于1的时候是个负数，而且log函数是递增函数，所以-log(0.6) < -log(0.3) < -log(0.1)。简单讲就是你预测错比预测对的损失要大，预测错得离谱比预测错得轻微的损失要大。

4. center loss

Softmax函数学习到的特征仍然有很大的类内差距，为了解决这一问题，center loss应运而生

类间距离变大了，类内距离减少了（主要变化在于类内距离：intra-class）