信息熵笔记

Big Orange...

已于 2022-02-19 21:26:52 修改

阅读量3k

点赞数

文章标签：机器学习概率论

于 2022-02-18 10:27:42 首次发布

本文链接：https://blog.csdn.net/liuzhicheng1845/article/details/122997944

版权

观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和？
两个事件的信息量之和等于两个事件和的信息量？
两个随机变量熵的和大于两个随机变量和的熵
在这里插入图片描述
图片引自：https://blog.csdn.net/luoxuexiong/article/details/113059152#:~:text=%E5%9C%A8%E6%A6%82%E7%8E%87%E8%AE%BA%E5%92%8C%E4%BF%A1%E6%81%AF%E8%AE%BA%E4%B8%AD%EF%BC%8C%E4%B8%A4%E4%B8%AA%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F%E7%9A%84%E4%BA%92%E4%BF%A1%E6%81%AF%EF%BC%88Mutual%20Information%EF%BC%8C%E7%AE%80%E7%A7%B0MI%EF%BC%89%E6%88%96%E8%BD%AC%E7%A7%BB%E4%BF%A1%E6%81%AF%EF%BC%88transinformation%EF%BC%89%E6%98%AF%E5%8F%98%E9%87%8F%E9%97%B4%E7%9B%B8%E4%BA%92%E4%BE%9D%E8%B5%96%E6%80%A7%E7%9A%84%E9%87%8F%E5%BA%A6%E3%80%82.%20%E4%B8%8D%E5%90%8C%E4%BA%8E%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0%EF%BC%8C%E4%BA%92%E4%BF%A1%E6%81%AF%E5%B9%B6%E4%B8%8D%E5%B1%80%E9%99%90%E4%BA%8E%E5%AE%9E%E5%80%BC%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F%EF%BC%8C%E5%AE%83%E6%9B%B4%E5%8A%A0%E4%B8%80%E8%88%AC%E4%B8%94%E5%86%B3%E5%AE%9A%E7%9D%80%E8%81%94%E5%90%88%E5%88%86%E5%B8%83%20p%20%28X%2CY%29%20%E5%92%8C%E5%88%86%E8%A7%A3%E7%9A%84%E8%BE%B9%E7%BC%98%E5%88%86%E5%B8%83%E7%9A%84%E4%B9%98%E7%A7%AF%20p%20%28X%29p,%E7%9A%84%E7%9B%B8%E4%BC%BC%E7%A8%8B%E5%BA%A6%E3%80%82.%20%E4%BA%92%E4%BF%A1%E6%81%AF%20%28Mutual%20Information%29%E6%98%AF%E5%BA%A6%E9%87%8F%E4%B8%A4%E4%B8%AA%E4%BA%8B%E4%BB%B6%E9%9B%86%E5%90%88%E4%B9%8B%E9%97%B4%E7%9A%84%E7%9B%B8%E5%85%B3%E6%80%A7%20%28mutual%20dependence%29%E3%80%82.%20%E4%BA%92%E4%BF%A1%E6%81%AF%E6%98%AF%E7%82%B9%E9%97%B4%E4%BA%92%E4%BF%A1%E6%81%AF%EF%BC%88PMI%EF%BC%89%E7%9A%84%E6%9C%9F%E6%9C%9B%E5%80%BC%E3%80%82.%20%E4%BA%92%E4%BF%A1%E6%81%AF%E6%9C%80%E5%B8%B8%E7%94%A8%E7%9A%84%E5%8D%95%E4%BD%8D%E6%98%AFbit%E3%80%82.
在这里插入图片描述

1.自信息（self-information）

I(x)=− log p(x)
自信息表示子事件的信息量（概率越小，信息量越大）
如果事件X=x的概率为p ,那么X可以视作由1/p个这样的事件构成，需要长度为log(1/p)的编码对这1/p个事件进行编码
在这里插入图片描述
图片来源：https://www.cnblogs.com/kyrieng/p/8694705.html

2.信息熵 (Shannon’s entropy)

信息熵：随机变量中所有事件的平均信息量，即自信息的期望
在这里插入图片描述
min H=0
max H=ln n ,离散对象
max H=ln l ,连续对象

log 函数基的选择是任意的
信息论中基常常选择为2，因此信息的单位为比特bits；
机器学习中基常常选择为自然常数，因此单位常常被称为奈特nats

An attribute with a very large domain normally divides the database into more smaller classes than an attribute with a small domain. A regularity found in a very small portion of database may not necessarily be useful. On the other hand, an attribute with small domain usually divides the database into a few larger classes. One may not find regularities in such large subsets of the database. Entropy values may be used to control the selection of attributes. It is expected that an attribute with middle range entropy values may be more useful. Similar ideas have been used successfully in information retrieval.

3.联合熵 (joint entropy)

在这里插入图片描述

4.交叉熵

在这里插入图片描述
参考：https://www.zhihu.com/question/41252833

用2进制编码对所有单词进行编码
信息熵是单词编码后位数期望的最小值
即最佳编码方式为通过使用概率决定单词位置：单词位数= -log p
但是由于实际是在制定编码方式时使用的时单词的使用频率q，这中情况下单词编码长度的期望就是交叉熵

交叉熵衡量在给定的真实分布下，使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小

5.条件熵

产品条件熵能够衡量用户对于产品偏好之间的单向关联。？？？关联竟然不是相互的？可以理解，但首次听说

H(XIY)=H(X,Y)-H(Y)=H(X)-I(X;Y)
已知随机变量Y的条件下随机变量X的不确定性
感性理解
信息熵减去相关的部分
数学证明
在这里插入图片描述

6.相对熵（relative entropy）

相对熵可以衡量两个随机分布之间的距离，当两个随机分布相同时，它们的相对熵为零，当两个随机分布的差别增大时，它们的相对熵也会增大。

相对熵又被称为Kullback-Leibler散度（Kullback-Leibler divergence）或信息散度（information divergence）

相对熵表示使用理论分布拟合真实分布时产生的信息损耗
相对熵等价于两个概率分布的信息熵的差值
相对熵是两个概率分布间差异的非对称性度量
在这里插入图片描述

在这里插入图片描述
相对熵是两个概率分布间差异的非对称性度量

7.互信息 (Mutual Information)

互信息描述了随机变量之间的相关性 (依赖性)
I(X;Y)=H(X)+H(Y)-H(X,Y)
如果X和Y完全无关：H(X)+H(Y)=H(X,Y) – 信息熵的和等于联合熵
否则：H(X)+H(Y)>H(X,Y)
若无关则联合熵等于信息熵的和，若相关则联合熵小于信息熵的和
min I=0
max I=H(X)=H(Y)
I(X,X)=H(X)

The mutual information measures the decrease of uncertainty about X caused by the knowledge of Y
It is a measure of the amount of information about X contained in Y .