交叉熵的本质是极大似然估计

李攀007

于 2021-01-14 16:33:22 发布

阅读量490

点赞数

分类专栏：数学基础

原文链接：https://www.zhihu.com/question/65288314/answer/849294209

版权

交叉熵最大似然估计概率分布随机变量似然值

关键词由CSDN通过智能技术生成

数学基础专栏收录该内容

9 篇文章 1 订阅

订阅专栏

转载自 https://www.zhihu.com/question/65288314/answer/849294209

交叉熵这东西你如果理解为两个概率分布会发现它就是nonsense，你得把对数里面那个分布理解为真实的随机变量分布，而将对数外面那个理解为观察到的频率。然后你就会发现它就是最最原始的MLE（最大似然估计）套了个时髦的壳而已。

比如说现在有一个真实分布为 P(x) 的随机变量，我们对它进行了N次独立同分布实验，对于每个可能的结果x观察到的次数为 N(x) ，那么它的似然值就可以写成
在这里插入图片描述
很好理解对吧，乘法公式，把每次实验的概率乘起来，然后合并相同的项写成幂次。这是个乘积的形式，取个对数可以得到求和的形式：

这个式子有两个缺点，第一它是个负数，第二它的数值跟样本数有关，样本越多数值越小，因此除以一下总的样本数归一化，再取个相反数，然后改用频率表示：在这里插入图片描述
这就齐活了。因此可以看出，交叉熵最小实质上就是似然值最大。我们可以证明，在给定 P_o 的情况下，使交叉熵最小的分布P一定有 P=P_o ，只需要用拉格朗日乘子法就可以：求偏导得到
即 P_o 和 P 成比例，再根据归一化条件得到 P=P_o 因此在有模型约束的条件下求交叉熵最小值，也就是让模型输出的分布尽量能接近训练数据的分布。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

李攀007 CSDN认证博客专家 CSDN认证企业博客

码龄7年

27: 原创

19万+: 周排名

190万+: 总排名

4万+: 访问

: 等级

359: 积分

18: 粉丝

41: 获赞

9: 评论

120: 收藏

私信

关注

热门文章

分类专栏

最新评论

直观理解：为什么A为 n 阶满秩方阵时，Ax＝0 只有零解？
千万490: 为负数就看作往反方向走
直观理解：为什么A为 n 阶满秩方阵时，Ax＝0 只有零解？
竹子子: 你是我的神！！！！我终于懂了
直观理解：为什么A为 n 阶满秩方阵时，Ax＝0 只有零解？
BYYYMA: xn不能是负数吗
直观理解：为什么A为 n 阶满秩方阵时，Ax＝0 只有零解？
m0_61765540: 牛啊，牛啊，瞬间有了更深的理解
pytorch对数据集进行重新采样
李攀007: “我们可以人为的给每张图片定一个被抽取到的概率，一般每一类的所有图片的概率可以一样”，我原文中写的就是给每张图片定一个被抽取到的概率，我的意思是每一类的所有图片的概率一般一样，比如猫这个类的200张图片，每张图片抽取到的权值都是1/200。我表述的概率可能不恰当，理解成权值就行，因为所有图片的权值加起来是可以超过1的，这些权值归一化之后应该才是概率。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。