信息熵和散度

最新推荐文章于 2023-08-30 15:53:03 发布

jxzheng95

最新推荐文章于 2023-08-30 15:53:03 发布

阅读量632

点赞数 1

分类专栏：机器学习文章标签：编码机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014683535/article/details/78511195

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

信息熵和散度

信息量

首先给出香农信息量的概念：

信息量需要具有三个性质

事件出现的概率越大，所包含的信息量越小
可加性
不能为负

满足这三个性质的唯一函数

$h(x)=-log_2p_x$
$p_x$ 是事件 $x$ 发生的概率

熵

熵是所有事件发生的信息量的期望
$H(p)=-\sum_ip_i*log_2p_i$
熵也可以看作是最小平均编码长度。参考熵和编码长度

交叉熵

按照非真实的分布 $q$ 来计算事件的信息量，或者说给信息编码。
则 $h(x)=-log_2q_x$
那么计算出来的熵就是
$H(p,q)=-\sum_ip_i*log_2q_i$
注意要用真实的分布来计算期望，这代表我们用 $q$ 分布来编码能得到的真实的最小平均编码长度。

相对熵

又称为KL散度
用交叉熵减去真实的熵，得到相对熵。表示用非真实的分布 $q$ 给信息编码会比用真实的分布 $p$ 编码多的编码长度。
$H(p)=\sum_i{p_i}*log_2\frac{p_i}{q_i}$
根据吉布斯不等式可知 $H(p,q)\ge H(p)$ ，当 $q$ 和 $p$ 相等时取等号。
相对熵衡量了 $q$ 和 $p$ 两个概率分布的差异性。

##参考
信息熵是什么？ - 忆臻的回答 - 知乎
 如何通俗的解释交叉熵与相对熵? - Noriko Oshima的回答 - 知乎

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
信息熵和散度

信息熵和散度信息量首先给出香农信息量的概念：信息量需要具有三个性质事件出现的概率越大，所包含的信息量越小可加性不能为负满足这三个性质的唯一函数h(x)=−log2pxh(x)=-log_2p_x pxp_x是事件xx发生的概率熵熵是所有事件发生的信息量的期望 H(p)=−∑ipi∗log2piH(p)=-\sum_ip_i*log_2p_i 熵也可以看作是最小平均编码长度。参考熵和编码
复制链接

扫一扫

专栏目录

博客等级

码龄10年

30
原创

16
点赞

27
收藏

6
粉丝

关注

私信

热门文章

分类专栏

LeetCode 3篇
python 5篇
机器学习 7篇
编程 2篇
linux 1篇
c++ 1篇
基础算法模版 6篇

最新评论

差分数组和差分矩阵
xyy11233: 唯独看你这个看懂了
差分数组和差分矩阵
ChengSukai: tricks里面讲的实在是听不懂
浅谈Python中的yield表达式
杨二K: 确实看到很明白了。有时候就是很简单的道理，很多教程都很抽象不能让人一眼就明白。
浅谈Python中的yield表达式
无敌策哥: 讲的真好，，通透了，以前总是不怎么通透
python正则表达式——re模块的使用
黎明咬破夜的唇: 文章写的很好简单易懂但是有个问题哈我python是2.7我查了以下re.compile()的文档是Compile a regular expression pattern, returning a pattern object 这个方法的参数接受一个regular expression pattern 而作者写的返回一个这个对象不知道是py3改了还是作者笔误啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。