信息量与熵笔记

最新推荐文章于 2023-05-14 20:00:54 发布

ggwcr

最新推荐文章于 2023-05-14 20:00:54 发布

阅读量4.5k

点赞数

分类专栏：机器学习实战文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ggwcr/article/details/77964184

版权

机器学习实战专栏收录该内容

22 篇文章 1 订阅

订阅专栏

主要是学习七月算法熵与信息量所作的一些笔记，当然也参考了一些博客，这里对他们表示衷心的感谢！

自信息

如果说概率 p 是对确定性的度量，那么信息就是对不确定性的度量。

I(x) = -log(p(x))
如果两个事件X和Y独立，即p(xy)=p(x)p(y)，假定X和Y的信息量分别为I(x)和I(y)，则二者同时发生的信息量应该为

I(x^y)=I(x)+I(y)

信息熵：自信息的期望

熵是对平均不确定性的度量，熵是随机变量不确定性的度量，不确定性越大，熵值越大；若随机变量退化成定值，熵为0。该不确定性度量的本质即为信息量的期望。其中均匀分布是“最不确定”的分布。

信息熵的公式：

同时信息熵也反应了一个系统的有序化程度，一个系统越是有序，那么它的信息熵就越低，反之越高。

联合熵

两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。

条件熵

条件熵的计算公式：

H(X,Y) – H(Y)

(X,Y)发生所包含的熵，减去Y单独发生包含的熵：在Y发生的前提下，X发生“新”带来的熵。该式子定义为Y发生前提下，X的熵：H(X|Y)。

条件熵公式的推导：

KL(Kulback-Leible)散度：

kL散度也称互熵，相对熵，鉴别信息。KL散度是衡量两个分布的距离。

设P(x)和q(X)是X取值的两个概率分布，则P对q的KL散度为：

KL散度的性质：

（1）尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即

（2）相对熵的值为非负值，即

在证明之前，需要认识一个重要的不等式，叫做吉布斯不等式。内容如下

互信息（信息增益）

定义：i(y,x)=i(y)-i(y|x)=log(p(y|x)/p(y))

在信号与系统中，互信息表示为收信者收到信息x后，对信源发Y的不确定性的消除，实际上我们更关心不确定性的减少。

互信息的另外一种表示：

互信息的对称性：

平均互信息：

决策树中的“信息增益”其实就是平均互信息I(X,Y)。

条件熵与平均互信息的关系：

以上是公式对二者关系的表示，下面的图则更形象和直观。

从上面的图中可以清楚的看出互信息I(X,Y)的不同表示方法。

各个熵之间的关系：

参考文献：

http://blog.csdn.net/haolexiao/article/details/70142571

http://blog.csdn.net/acdreamers/article/details/44657745

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
信息量与熵笔记

主要是学习七月算法熵与信息量所作的一些笔记，当然也参考了一些博客，这里对他们表示衷心的感谢！自信息如果说概率p是对确定性的度量，那么信息就是对不确定性的度量。信息:I(x) = -log(p(x)) 如果两个事件X和Y独立，即p(xy)=p(x)p(y)，假定X和Y的信息量分别为I(x)和I(y)，则二者同时发生的信息量应该为I(x^y)=I(x)+I(y)
复制链接

扫一扫

专栏目录

ggwcr CSDN认证博客专家 CSDN认证企业博客

码龄10年

31: 原创

25万+: 周排名

180万+: 总排名

5万+: 访问

: 等级

876: 积分

16: 粉丝

17: 获赞

5: 评论

107: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习笔记--K-近邻算法（三）
可爱史迪仔: 赞！
MNIST的AlexNet实现
BobKings 回复今天依旧要努力: k=2,步长是2会尺寸减少一半
Factorization Machine算法
qq_19387169: 你好，在交叉矩阵梯度迭代的时候： v[i, j] = v[i, j] - alpha * loss * classLabels[x] * (dataMatrix[x, i] * inter_1[0, j] - v[i, j] * dataMatrix[x, i] * dataMatrix[x, i]) inter_1[0, j] 是否应该为inter_1[ j]? inter_1 既然为每一条记录x（1*n维）与交叉矩阵（n*k维）的乘机，那就应该是1*k维的，也就是一个k维向量，这个向量的第 j个元素就是 x与交叉矩阵第j列的内积
tensorflow图像数据预处理
qq_35550465: adjusted9 = tf.image.per_image_standardization(img_data)这一项报错 ValueError: Floating point image RGB values must be in the 0..1 range.
MNIST的AlexNet实现
今天依旧要努力: 博主你好，你这里定义池化采用SAME方式填充，前面你又用SAME方式做卷积，这样一直卷积池化下来到第一个fc层，怎么会得到4*4*256中4*4的size？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。