自信息,KL散度(相对熵),交叉熵

最新推荐文章于 2023-04-29 16:54:51 发布

onexming

最新推荐文章于 2023-04-29 16:54:51 发布

阅读量181

点赞数

分类专栏：信息论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39124762/article/details/82895345

版权

信息论专栏收录该内容

1 篇文章 0 订阅

订阅专栏

自信息

《深度学习》P47

自信息：描述一个所含有的信息量，
概率越小的事件所有包含的信息量（也叫自信息）越大，概率越大的事件发生了所包含的自信息越小。自信息的数学定义：
$\Huge I(x) = -logP(x)$

机器学习中log的底一般为为自然对数 $e$
自信息只是处理单个的输出，使用香农熵来表示对整个概率分布中的不确定性的总量的量化
$\Huge H(x)=\mathbb{E}_{x\sim P}=-\mathbb{E}_{x\sim P}[logP(x)]$
一个分布的香农熵是指遵循这个分布的事件所产生的期望信息总量.

KL散度(相对熵)

维基百科:https://en.wikipedia.org/wiki/Kullback–Leibler_divergence

计算使Q(x)分布变成P(x)分布,所需要的额外的P(x)信息, 可以使用KL散度量衡量P(x)和Q(x)分布的差异性Q:
$\Huge D_{KL}(P||Q)=\mathbb{E}_{x\sim P}[log\frac{P(x)}{Q(x)}]=\mathbb{E}_{x\sim P}[logP(x)-logQ(x)$

交叉熵

维基百科:https://en.wikipedia.org/wiki/Cross_entropy

使用Q(x)变成P(x)所以需要的额外的P(x)信息加上 P(x)本身所具有的香农熵, 等于把Q(x)变成P(x)所需要的总的信息量.
$\huge H(P,Q)=H(P) - D_{KL}(P||Q)$
进过变化得到
$\huge H(P,Q)=-\mathbb{E}_{x\sim P}logQ(x)$
当针对Q最小化交叉熵的时候,交叉熵等价于KL散度, 因为H§并没有Q项.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。