读书笔记 --《数学之美》_信息的度量和作用

最新推荐文章于 2020-01-26 14:16:56 发布

烤鱼想睡觉

最新推荐文章于 2020-01-26 14:16:56 发布

阅读量1.3k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/redaihanyu/article/details/50372782

版权

《数学之美 $\cdot$ 第二版》第六章

1、信息熵：信息的度量
对于任一个随机变量 $X$ ，它的信息熵定义如下：

H (X) = - \sum x \in X P (x) log P (x) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 1.1)

$H(X)=-∑_{x\in X}P(x)\log{P(x)}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式1.1)$
变量的不确定性越大，信息熵越大，所需要的信息量越大。

2、信息的作用：消除不确定性

U' = U - I \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 2.1)

$U'=U-I\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式2.1)$ 其中

U $U$ 是不确定性，

I $I$ 是信息熵，

U′ $U'$ 是新的不确定性。公式说明，没有信息，任何公式或者数字游戏都无法排除不确定性。

3、条件熵
条件熵公式：

H (X | Y) = - \sum x \in X ， y \in Y P (x, y) log P (x | y) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 3.1)

$H(X|Y)=-∑_{x\in X，y\in Y}P(x,y)\log{P(x|y)}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式3.1)$
公式说明，在了解Y的情况下，关于X的不确定性下降了。

4、互信息：相关性度量
互信息公式：

I (X; Y) = \sum x \in X ， y \in Y log P ( x ， y ) P ( x ) P ( y ) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 4.1)

$I(X;Y)=∑_{x\in X，y\in Y}\log{\frac{P(x， y)}{P(x)P(y)}}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式4.1)$

I (X; Y) = H (X) - H (X | Y) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 4.2)

$I(X;Y)=H(X)-H(X|Y)\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式4.2)$
公式4.2表明，互信息的意义表示：X的不确定性在了解了Y之后的下降值。

H(X) $H(X)$ 表示X的不确定性，

H(X|Y) $H(X|Y)$ 表示X在了解了Y之后的不确定值。互信息是一个取值在0到

min(H(X)，H(Y)) $min(H(X)，H(Y))$ 之间的函数，当X和Y完全相关时，它的取值是1；当二者完全无关时，它的取值是0。

互信息被广泛用于度量一些语言现象的相关性。例如词语的二义性（或称歧义性）。

5、相对熵
相对熵也用来衡量相关性，但和变量的互信息不同，它用来衡量两个取值为正数的函数的相关性，其定义如下：

K L (f (x) | | g (x)) = \sum x \in X f (x) \cdot log f ( x ) g ( x ) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 5.1)

$KL(f(x)||g(x))=∑_{x\in X}f(x)\cdot \log{\frac{f(x)}{g(x)}}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式5.1)$
从公式中得出结论：
(a.)对于两个完全相同的函数，它们的相对熵为零；
(b.)相对熵越大，两个函数的差异性越大；反之，相对熵越小，两个函数的差异性越小；
(c.)对于概率分布或者概率密度函数，如果取值均大于零，相对熵可以度量两个随机分布的差异性。

需要指出的是，相对熵不是对称的，即：

K L (f (x) | | g (x)) \neq K L (g (x) | | f (x)) \cdot \cdot \cdot \cdot \cdot \cdot \cdot (公 式 5.2)

$KL(f(x)||g(x))\neq KL(g(x)||f(x))\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式5.2)$
这样使用起来很不方便，为了让其对称，詹森和香农提出一种新的相对熵的计算方法，将公式5.1两边去平均，即：

J S (f (x) | | g (x)) = 1 2 [K L (f (x) | | g (x)) + K L (g (x) | | f (x))] \cdot \cdot \cdot \cdot (公 式 5.3)

$JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x)) + KL(g(x)||f(x))]\cdot\cdot\cdot\cdot(公式5.3)$

附件：汉语信息熵和语言模型的复杂度吴军&&王作英

烤鱼想睡觉

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
读书笔记 --《数学之美》_信息的度量和作用

《数学之美⋅\cdot第二版》第六章1、信息熵：信息的度量对于任一个随机变量XX，它的信息熵定义如下：H(X)=−∑x∈XP(x)logP(x)⋅⋅⋅⋅⋅⋅⋅(公式1.1)H(X)=-∑_{x\in X}P(x)\log{P(x)}\cdot\cdot\cdot\cdot\cdot\cdot\cdot(公式1.1) 变量的不确定性越大，信息熵越大，所需要的信息量越大。2、信息的作用：消除不确定
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。