【深度学习】交叉熵

absacuo

已于 2024-07-24 15:06:31 修改

阅读量763

点赞数 17

分类专栏：深度学习文章标签：深度学习人工智能

于 2024-07-24 02:30:47 首次发布

本文链接：https://blog.csdn.net/absacuo/article/details/140649739

版权

1 篇文章 0 订阅

订阅专栏

信息熵公式

香农（Shannon） - 信息论

$\begin{align*} H(X) &= E[I(X)]\\ &=E[-log(P(X))]\\ &=\sum_{i=0}^n -p(x_i)\cdot log(p(x_i)) \end{align*}$

$\begin{align*} I(X) &=log(\frac{1}{P(X)})\\ &= -log(P(X)) \end{align*}$

根据该基本事件 $X$ 发生
自信息量 = $1/ P (X)$
- 一个基本事件发生的概率越低，代表当其发生时所 “携带的信息” 以及 “使得系统信息熵降低程度” 更大，可以更精准地定位系统状态/熵的变化幅度

一条信息的可能性 “含量” 随着内存位数的增加而指数倍增加
- 系统的实际衡量标准之一就是 “内存” 大小
二进制：计算机存储信息
- $1\ bit$ 有 ${0, 1\}$ $\rightarrow 2^1$ 个状态
- $N\ bits$ 有 $\rightarrow 2^N$ 个状态
将信息含量按照存储方式（如二进制）转化为实际的内存大小： $log_2(2^N) \rightarrow N\ bits$
- 整个系统中，每个最小单位所存储的信息量（标准化）： $i = 1/2^N$
  $\begin{align*} N &= log_{0.5}(i)\\ \rightarrow N &= log(i)\\ \rightarrow N &= log(2^N) \end{align*}$
- 对数的换底公式： $log_{m/n} = \frac{log_m}{log_n}$ ；因此使用 $log_2,\ log_{10}$ 还是 $l n$ 都不影响其含义

假设有 K 个类别进行分类；使用独热编码（one-hot）作为 $y$

交叉熵（单样本，K 分类）： $\hat{y}) = -\sum_{j=1}^K y_j\cdot log(\hat{y}_j)$
最大似然估计： $l(\theta) = \sum_{i=1}^n logP(y_i|x_i; \theta)$
由于多分类问题的独热编码 target，在 $K$ 个类中，只有在正确预测的位置概率才会为 1 否则为 0（与独热编码分布一致），因此将样本的真实分布作为幂，对于系统信息熵无影响
$\begin{align*} L &= -\sum_{i=1}^n\sum_{j=1}^K y_{ij}\cdot log(\hat{y}_{ij}) \\ l(\theta) &= \sum_{i=1}^n \sum_{j=1}^K log(\hat{y}_{ij}^{y_{ij}}) \\ &= \sum_{i=1}^n \sum_{j = 1}^K y_{ij}log(\hat{y}_{ij})\\ \\ &\Rightarrow -L = l(\theta) \end{align*}$

$\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2$
- 当 $\hat{y}_i$ 和 $y_i$ 的误差很大时， $MSE$ 在 $\hat{y}_i$ 处的导数也很小
- 当误差达到一定程度时，该处导数可能会更加趋近于零，从而导致 梯度消失问题 出现，模型无法利用梯度进一步优化损失函数
在梯度优化的过程中，令 $\hat{y}_i\rightarrow y_i$ 则可以降低梯度
- $\hat{y}_i > y_i$ ，则优化方向为 $\hat{y}_{i-}$
- $\hat{y}_i < y_i$ ，则优化方向为 $\hat{y}_{i+}$
- 因此，虽然 $\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2 \Leftrightarrow \frac{1}{n}\sum_{i=1}^n(\hat{y}_i - y_i)^2$ ，但通过前者的写法，其导数结果即为梯度优化的方向（不需要额外添加负号「 $-$ 」）
  $\begin{align*} \frac{\partial MSE}{\partial \hat{y}_i} &= -2(y_i-\hat{y}_i) \end{align*}$

信息熵度量随机变量的不确定性
- 熵越大，代表随机变量的结果越不确定，则意味着需要更多的信息来降低系统的混乱程度 $\rightarrow$ 降低熵
根据香农的信息理论，信息熵代表了对随机变量进行压缩时的平均最小编码长度
- 编码长度越长，代表系统中能够包含更多的信息
- 也影响了系统在计算机中实际的内存空间大小

两个概率分布，基于其中一种的编码用于另一种的样本，所产生的额外内存需求：即由于两种分布的差异，导致系统中的熵增
- 假设 $P (x)$ 代表样本实际分布， $Q (x)$ 代表整体的理论分布
  $\begin{align*} KL(P||Q) &= \sum P(x)\cdot log\frac{P(x)}{Q(x)}\\ &= \int P(x)\cdot log\frac{P(x)}{Q(x)}\\ &\Rightarrow \sum P(x)\cdot [log(P(x)) - log(Q(x))]\\\ \because &P(x) 为样本实际分布，无变动，对于系统的信息熵无影响\\ \therefore &KL(P||Q) = -\sum P(x)\cdot log(Q(x)) \end{align*}$