交叉熵损失函数中的对数(log) 之所以是核心部分,主要是为了以下几个重要的原因:
1. 惩罚不正确预测的严重性
交叉熵损失函数的核心目标是 惩罚错误的预测,尤其是当模型的预测概率偏离真实标签时。对数函数的使用使得对于 错误预测 的惩罚更为显著,具体来说:
- 如果模型预测的概率接近 0,对数函数的值会非常大,从而 惩罚错误预测。
- 相反,当模型预测的概率接近 1,对数的值会接近 0,这使得正确预测的惩罚较小。
这意味着模型越是错得离谱,交叉熵的损失就越大。对数函数对小概率(即模型的错误预测)给予更大的惩罚,有助于加速模型学习正确的预测。
2. 概率模型的对数似然估计(Maximum Likelihood Estimation)
交叉熵损失函数与 极大似然估计(MLE, Maximum Likelihood Estimation) 关系密切。在分类问题中,模型通常输出某个类别的 概率分布(例如,softmax 或 sigmoid),而我们希望最大化模型对正确标签的预测概率。
在统计学中,最大似然估计是通过对观测数据的概率分布进行对数变换来进行的。具体来说,对于二分类问题,给定一组观测数据和它们的真实标签,最大化 似然函数 相当于最小化 交叉熵 损失。
对于一个数据点,假设 p ( y = k ) p(y = k) p(y=k) 是模型给出的类别 k k k 的预测概率,真实标签为 y y y,交叉熵损失函数实际上是在最小化类别 k k k 真实标签的对数似然:
L = − log ( p ( y = k ) ) L = - \log(p(y = k))