交叉熵与极大似然估计

最新推荐文章于 2025-04-17 21:30:28 发布

xiaollla

最新推荐文章于 2025-04-17 21:30:28 发布

阅读量531

点赞数

分类专栏：深度学习

原文链接：https://zhuanlan.zhihu.com/p/37917476

版权

深度学习专栏收录该内容

2 篇文章

订阅专栏

转载自：https://zhuanlan.zhihu.com/p/37917476

在机器学习中常用到交叉熵损失函数，其来源于信息论，用以描述两个两个分布之间的差异。为便于理解，下面描述几个相关定义。

假设X为一个离散随机变量，则X=x0的自信息（可理解为X=x0发生所携带的信息）为：

[公式]

单自信息只处理单个输出，为描述整个概率分布的不确定性总量，我们定义熵：

[公式]

其表示遵循该分布的事件所产生的期望信息量总和（不确定性总量越大，则信息总量越大）。

假设对于同一随机变量X,我们有两个单独的概率分布P(X)和Q(x),现定义一个KL散度用以描述这两个分布之间的差异：

[公式]

KL散度是非负的，但其并非真正代表两个分布之间的距离，因为它不是对称的。和KL散度密切联系的是交叉熵：

[公式]

所以针对Q最小化交叉熵等价于最小化KL散度，因为Q不影响H(P)。若P(x)为数据原始分布，则使交叉熵最小的分布Q(x)即是与P(x)最接近的分布。

现考虑一个分布P(X),我们从中随机取一些样本 [公式] ,计算一个似然，则似然函数为：。最大化似然函数即：

[公式]

[公式]

可以看到最小化交叉熵和最大似然函数的结果是一样的。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。