交叉熵和最大似然估计之间的关系

最新推荐文章于 2025-03-20 10:42:24 发布

liguiyuan112

最新推荐文章于 2025-03-20 10:42:24 发布

阅读量7.9k

点赞数 4

分类专栏： AI 算法文章标签：神经网络深度学习交叉熵最大似然

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012505617/article/details/108753869

版权

AI 同时被 2 个专栏收录

42 篇文章

订阅专栏

6 篇文章

订阅专栏

在分类的网络模型中，我们常常使用交叉熵作为损失函数，今天来梳理一下这些知识点。

1. 交叉熵

交叉熵作为损失函数的实际意义，这里引用这篇博文（https://blog.csdn.net/elite666/article/details/83850786）的一句话：

交叉熵刻画的是实际输出（概率）与期望输出（概率）的距离，也就是交叉熵的值越小，两个概率分布就越接近，即拟合的更好。

交叉熵计算公式：

$H(p, q ) = -\sum_{j=1}^{K}p(x_j)logq(x_j)$

式中 x为一个离散随机变量，p(xj)表示第j类的概率。

假设同一随机变量X，我们有两个单独的概率分布P(x)和Q(x)，那KL散度是用以描述这两个分布之间的差异。

计算公式：

$D_{KL}(P||Q) = E_{x\sim P}[logP(x) - logQ(x)]$

交叉熵和KL散度的关系：

$H(P,Q) = H(P) + D_K_L(P||Q)$

当分布P 是已知的，则熵是常量，此时最小化交叉熵等价于最小化KL散度。

2. 最大似然估计

我们这里先说最大似然估计的计算步骤：

（1）写出似然函数；

（2）对似然函数取对数，并整理；

（3）求导数；

（4）解似然方程。

似然函数：

$L = \prod_{i=1}^{m}Q(x:\theta )$

当我们在计算一个batch的最大似然时有

$L = \frac{1}{n}\sum_{i=i}^{n}log\prod_{j=1}^{K}q_j^{p_j} = \frac{1}{n}\sum_{i=1}^{n}log(q_1^{p_1}.q_2^{p_2}... q_K^{p_k}) \\ =\frac{1}{n}\sum_{i=1}^{n}(p_1logq_1+p_2logq_2+...+p_Klogq_K) \\ =\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{K}p_ilog(q_i) \\ =-\frac{1}{n}\sum_{i=1}^{n}H(p, q)$

实际上在使用最大似然估计时常取负数，通过上面的式子我们就可以看出，这样我们就发现最大似然和最小化交叉熵是等价的。（因为有一个负号，最小化交叉熵就是最大化似然，模型训练得到的效果是一样的）。

参考：

https://zhuanlan.zhihu.com/p/37917476

https://www.zhihu.com/question/314706587

https://blog.csdn.net/elite666/article/details/83850786

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

liguiyuan112 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。