交叉熵函数推导

最新推荐文章于 2022-07-17 22:40:52 发布

木大木打木大

最新推荐文章于 2022-07-17 22:40:52 发布

阅读量800

点赞数 2

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/weixin_43476533/article/details/116721930

版权

自然语言处理专栏收录该内容

6 篇文章 0 订阅

订阅专栏

交叉熵的推导

1.最大似然

何为最大似然？哲学上有句话叫做“存在就是合理的”，最大似然的意思是“存在就是最合理的”。具体来说，如果事件 $X$ 的概率分布为 $p (X)$ ，如果一次观测中具体观测到的值分别为 $X_1,X_2,…,X_n$ ，并假设它们是相互独立，那么
$\mathcal P=\prod_{i=1}^np(X_i) \tag{1}$
是最大的。如果 $p (X)$ 是一个带有参数 $\theta$ 的概率分布式 $p_{\theta}(X)$ ，那么我们应当想办法选择 $\theta$ ，使得 $\mathcal L$ 最大化，即
$θ={\underset {\theta} {argmax}} \prod_{i=1}^np_{\theta}(X_i) \tag{2}$
再对两边取对数并除以n，就得到
$θ={\underset {\theta} {argmax}} \mathcal L(\theta)={\underset {\theta} {argmax}} \mathbb E [log p_{\theta}(X_i)] \tag{3}$
其中我们就把 $-\mathcal L(\theta)$ 叫做交叉熵.

2.推导

对应在神经网络中的公式，为：
$\mathcal L={1 \over N} \sum_i-[ylog \hat y+(1-y)log(1-\hat y)]$
推导：

Sigmoid 函数的输出表征了当前样本标签为 1 的概率： $\hat y=P(y=1|x)$

那么样本标签为 0 的概率就可以写成： $1-\hat y=P(y=0|x)$

从最大似然性的角度出发，把上面两种情况整合到一起：
$P(y|x)=\hat y^y\cdot (1-\hat y)^{1-y}$
上面的式子可以这样理解，当真实样本标签$ y = 0$ 时， $\hat y^y=1$ ， $(1-\hat y)^{(1-y)}=1-\hat y$ ，上式就转化为：

$P(y=0|x)=1-\hat y$

当真实样本标签$ y = 1 $时，$ \hat y^y=\hat y $，$ (1-\hat y)^{(1-y)}=1$，概率等式转化为：

$P(y=1|x)=\hat y$

两种情况下概率表达式跟之前的完全一致，只不过我们把两种情况整合在一起了。

然后两边取对数，加上负号，就得到了交叉熵函数。使交叉熵最小，也就是使 $P (y ∣ x)$ 最大的过程。

对应到多标签分类，其实就是对二分类的扩展：
$\mathcal L={1 \over N} \sum_iL_i={1 \over N} \sum_i-\sum_{c=1}^M y_{ic} log(p_{ic})$
其中：
$M$ ——类别的数量；
$y_{ic}$ ——指示变量（0或1）,如果该类别和样本i的类别相同就是1，否则是0；
$p_{ic}$ ——对于观测样本i属于类别c的预测概率。

参考：
1.https://zhuanlan.zhihu.com/p/35709485
2.https://spaces.ac.cn/archives/5239

木大木打木大

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
交叉熵函数推导

交叉熵的推导1.最大似然何为最大似然？哲学上有句话叫做“存在就是合理的”，最大似然的意思是“存在就是最合理的”。具体来说，如果事件XXX的概率分布为p(X)p(X)p(X)，如果一次观测中具体观测到的值分别为X1,X2,…,XnX_1,X_2,…,X_nX1,X2,…,Xn，并假设它们是相互独立，那么P=∏i=1np(Xi)(1)\mathcal P=\prod_{i=1}^np(X_i) \tag{1}P=i=1∏np(Xi)(1)是最大的。如果p(X)p(X)p(X)是一个带有参数
复制链接

扫一扫