熵&交叉熵&交叉熵损失函数的理解_交叉熵和交叉熵损失函数-CSDN博客

本文链接：https://blog.csdn.net/m0_52038744/article/details/138768216

这里写目录标题

熵 (Entropy)

熵是衡量系统不确定性或混乱程度的度量。公式如下：

$-\sum_{i} P(x_i) \log P(x_i)$

$P(x_i)$ 是事件 $x_i$ 发生的概率。

例子

想象你在一个完全黑暗的房间里，有一盘糖果，但你不知道这些糖果是巧克力的还是水果味的。如果你知道盘子里一半是巧克力一半是水果味，那么你对糖果种类的不确定性是最大的（即熵最大）。如果你知道盘子里全部都是巧克力的，那么你对糖果种类的确定性是最大的（即熵最小）。

假设一个系统有两种状态，状态A和状态B，出现的概率分别为0.6和0.4。那么这个系统的熵计算如下：

$\begin{aligned} H(P) &= - (0.6 \log 0.6 + 0.4 \log 0.4) \\ &= - (0.6 \times -0.5108 + 0.4 \times -0.9163) \\ &= - (-0.3065 - 0.3665) \\ &= 0.673 \end{aligned}$

交叉熵 (Cross-Entropy)

交叉熵用来衡量两个概率分布之间的差异。公式如下：

$-\sum_{i} P(x_i) \log Q(x_i)$

$P(x_i)$ 是真实分布。
$Q(x_i)$ 是预测分布。

例子

继续用糖果的例子。假设你预测盘子里的糖果有80%是巧克力，20%是水果味（这是你的预测分布 $Q$ ），但实际情况是50%是巧克力，50%是水果味（这是真实分布 $P$ ）。交叉熵在这里衡量的是你预测和实际情况的差异。如果你的预测和实际情况完全匹配，交叉熵将是最小的。

假设真实分布 $P$ 和预测分布 $Q$ 如下：

真实分布 $P$ ：状态A的概率是0.6，状态B的概率是0.4。
预测分布 $Q$ ：状态A的概率是0.7，状态B的概率是0.3。

交叉熵的计算如下：

$\begin{aligned} H(P, Q) &= - (0.6 \log 0.7 + 0.4 \log 0.3) \\ &= - (0.6 \times -0.3567 + 0.4 \times -1.2040) \\ &= - (-0.2140 - 0.4816) \\ &= 0.6956 \end{aligned}$

交叉熵损失函数 (Cross-Entropy Loss Function)

交叉熵损失函数在机器学习中用于衡量模型的预测概率分布与真实标签之间的差异。

二分类问题中的交叉熵损失

对于二分类问题，公式如下：

$\log \hat{y} + (1 - y) \log (1 - \hat{y})]$

$y$ 是真实标签（0或1）。
$\hat{y}$ 是模型预测的正类的概率。

多分类问题中的交叉熵损失

对于多分类问题，公式如下：

$-\sum_{i} y_i \log \hat{y}_i$

$y_i$ 是真实标签的one-hot编码（1表示该类别，0表示非该类别）。
$\hat{y}_i$ 是模型预测的类别 $i$ 的概率。

例子

假设有一个二分类问题，真实标签是1，模型预测的概率是0.8。

交叉熵：

真实分布 $P$ ：

$P (1) = 1, P (0) = 0$

预测分布 $Q$ ：

$Q (1) = 0.8, Q (0) = 0.2$

交叉熵：

$\begin{aligned} H(P, Q) &= -[P(1) \log Q(1) + P(0) \log Q(0)] \\ &= -[1 \log 0.8 + 0 \log 0.2] \\ &= -(\log 0.8) \\ &= 0.223 \end{aligned}$
交叉熵损失函数：

交叉熵损失：

$\begin{aligned} L &= -[y \log \hat{y} + (1 - y) \log (1 - \hat{y})] \\ &= -[1 \log 0.8 + 0 \log 0.2] \\ &= -(\log 0.8) \\ &= 0.223 \end{aligned}$

在这种情况下，交叉熵的计算和交叉熵损失函数的计算是一样的，因为它们本质上是在度量相同的概率分布之间的差异。只是交叉熵损失函数专门用于机器学习的训练过程中。

自信息（Self-Information）

自信息度量的是一个事件发生时所带来的信息量。信息量越大，意味着这个事件越罕见。自信息的公式是：

$-\log P(x)$

其中：

$P (x)$ 是事件 $x$ 发生的概率。
$\log$ 一般是以2为底（也可以是自然对数或其他底），表示用比特（bits）来度量信息量。

通俗理解自信息

例子：想象你在一个盒子里抽取彩色球。

高概率事件：
- 假设盒子里有90个红球和10个蓝球，你随机抽到一个红球的概率是0.9。
- 抽到红球的自信息量： $I(\text{Red}) = -\log(0.9) = 0.152$ （使用自然对数）
- 信息量很小，因为抽到红球是很常见的事件。
低概率事件：
- 如果你抽到一个蓝球的概率是0.1。
- 抽到蓝球的自信息量： $I(\text{Blue}) = -\log(0.1) = 2.302$ （使用自然对数）
- 信息量很大，因为抽到蓝球是很少见的事件。