交叉熵与均方差

最新推荐文章于 2022-04-10 15:06:43 发布

DawnRanger

最新推荐文章于 2022-04-10 15:06:43 发布

阅读量5.7k

点赞数 2

分类专栏： deep-learning

本文链接：https://blog.csdn.net/dawnranger/article/details/78031793

版权

本文对比了交叉熵和均方误差在机器学习中的应用，指出交叉熵适合分类问题，能避免学习速率降低，而均方误差适用于线性输出的回归问题。通过实例展示了两种损失函数的计算，并对它们的理论进行了推导，包括反向传播中的计算和与熵的关系。

摘要由CSDN通过智能技术生成

先放结论：

相同点：当输出值与真实值接近的话，cross_entropy和rmse的值都会接近0
cross_entropy具有rmse不具有的优点：避免学习速率降低的情况，方法是避免了 $\sigma'(\cdot)$ 的出现。 (注意这种效果仅限于输出层，隐藏层的学习速率与其使用的激活函数密切相关。)
均方损失：假设误差是正态分布，适用于线性的输出(如回归问题)，特点是对于与真实结果差别越大，则惩罚力度越大，这并不适用于分类问题
交叉熵损失：假设误差是二值分布，可以视为预测概率分布和真实概率分布的相似程度。在分类问题中有良好的应用。

下面是3个训练样本经过使用softmax作为激活函数的神经网络的输出(computed)、真实结果(targets)以及是否预测正确的对比表格。

这是另外一个网络的输出结果：

第一个样本的交叉熵为：

- (0 * ln 0.3 + 0 * ln 0.3 + 1 * ln 0.4) = - ln 0.4

$-(0*\text{ln}0.3 + 0*\text{ln}0.3 + 1*\text{ln}0.4) =-\text{ln}0.4$

对于神经网络来说，交叉熵的计算有点古怪，因为只有一项会被保留下来。因此三个样本的平均交叉熵为：

- (ln 0.4 + ln 0.4 + ln 0.1) / 3 = 1.38

$-(\text{ln}0.4 + \text{ln}0.4 + \text{ln}0.1) / 3 = 1.38$

第二个网络的平均交叉熵为：

- (ln 0.7 + ln 0.7 + ln 0.3) / 3 = 0.64

$-(\text{ln}0.7 + \text{ln}0.7 + \text{ln}0.3) / 3 = 0.64$

R M S E = 1 n (y i -

关注

专栏目录