- 熵 KL散度 交叉熵的概念:理解二分类交叉熵|可视化的方法解释对数损失
- 交叉熵公式推导: 理解交叉熵作为损失函数在神经网络中的作用
- 熵 KL散度 交叉熵的关系:KL散度与交叉熵区别与联系
- 训练过程中三者的应用:交叉熵和KL散度有什么联系
第一个理解二分类交叉熵对于熵定义感觉有错误。对于分类任务,单个样本集概率对于该类别是1,因此通过交叉熵估计希望神经网络估计的该类别的概率分布与真实概率近似。
强调一下:多分类学习的过程中,相当于数据集的概率分布是已知的,也就是数据集的熵是常数,因此监督学习的过程实际上是让网络输出的熵与数据集的熵不断逼近的过程,此过程的损失函数就是交叉熵,由于熵是常数,因此交叉熵的梯度等于KL散度的梯度。两者在大多数情况下是等效的。