浅谈熵和打升级 (A brief talk about entropy and Sheng ji)

最新推荐文章于 2021-01-14 14:44:43 发布

dymodi

最新推荐文章于 2021-01-14 14:44:43 发布

阅读量1.3k

点赞数

分类专栏：统计相关文章标签：信息论闲情统计

本文链接：https://blog.csdn.net/dymodi/article/details/54171509

版权

统计相关专栏收录该内容

3 篇文章 1 订阅

订阅专栏

本文将结合打升级来大概总结一下信息论中熵的含义，及其与系统随机性，混乱程度和可预测性的一些关系。后续可能会修改本文添加更多内容。关于熵的内容介绍主要来自于Wikipedia。

熵（Entropy）

信息论中的熵是接收的每条消息中包含的信息的平均量，或者也可以换句话说，熵是信息内容不可预测性的一种度量。仔细想想其实这两种说法是等价的，但这样说可能比较抽象，我们考虑一个形象的例子。在大选之前，我们往往会进行一些民意调查（poll），原因在于民调的结果对于我们是未知的，于是民调带给了我们一些新的信息。如果我们在第一民调之后随即马上又进行第二次民调，那么第二次民调给我们带来的信息就不如第一次那么多。也就是说，第二次民调的熵小于第一次民调的熵。

然后我们考虑一个更数学一点的例子，掷硬币。我们首先考虑一个两面都是正面的硬币，那么它掷出正面的概率就是1，那么这个事件就没有随机性，熵为0，每一次结果都可以准确预测。然后我们假设一枚均匀的硬币，那么掷出正反面的概率都是一样的，都是0.5。那么我们可以认为每掷一次硬币传递的信息都是1个单位，想象一下穿梭在互联网中的1和0的数据流。这里我们先引入信息量的计算公式：

I (x i) = - log b p (x i)

$I(x_i)=-\text{log}_b p(x_i)$ 其中，

p(xi) $p(x_i)$ 是事件

xi $x_i$ 发生的概率，底数

b $b$ 可以取不同的值，当

b=2 $b=2$ 时，信息量的单位是 bit（这里其实是 bit 这个词的来历）。于是在上面的例子中，

p(掷正面)=0.5 $p(掷正面)=0.5$ ，那么计算可知掷一次正面带来的信息量就是 1bit。这里我们再引入熵的计算公式为：

H (x) = \sum i = 1 n p (x i) I (x i) = - \sum i = 1 n p (x i) log b p (x i)

$H(x)=\sum^n_{i=1}p(x_i)I(x_i)=-\sum^n_{i=1}p(x_i)\text{log}_b p(x_i)$
于是我们，我们计算可得，

H(掷两面都为正的硬币)=0 $H(掷两面都为正的硬币)=0$ ，

H(掷均匀硬币)=1 $H(掷均匀硬币)=1$ 。对比二者，我们可以说，掷均匀硬币的这个事件的熵更大，更随机，更不可预测，信息更多，系统更混乱。

好，接下来结合打升级谈一下。四个人打升级两幅牌共108张，庄家扣底可以多换8张牌，其他人没人拿25张牌。我们先计算一下起手的时候庄家和闲家拿到几张 A 的概率。比如庄家拿到 $n$ 张 A 的概率是（假设庄家见 A 就拿，不会把 A 扣进底牌中）：

p (x n) = C n 8 * C 33 - n 100 C 33 108

$p(x_n)=\frac{C^n_8*C^{33-n}_{100}}{C^{33}_{108}}$ 而闲家拿到

n $n$ 张 A 的概率是：

p (x n) = C n 8 * C 25 - n 100 C 25 108

$p(x_n)=\frac{C^n_8*C^{25-n}_{100}}{C^{25}_{108}}$ 于是可以得到庄家拿到几张 A 的概率分布为：

拿几张A	n=0	n=1	n=2	n=3	n=4	n=5	n=6	n=7	n=8
概率	p=0.048	p=0.186	p=0.302	p=0.268	p=0.141	p=0.046	p=0.009	p=9e-4	p=4e-5

闲家拿到几张 A 的概率分布为

拿几张A	n=0	n=1	n=2	n=3	n=4	n=5	n=6	n=7	n=8
概率	p=0.112	p=0.295	p=0.322	p=0.190	p=0.066	p=0.014	p=0.002	p=1e-4	p=3e-6

如果我们认为庄家有A就会在第一轮出A，那么庄家打出A所带来的信息量为：

I (庄 家 首 轮 出 A) = 0.0709

$I(庄家首轮出A)=0.0709$ 相对的，庄家首轮不打A的信息量为：

I (庄 家 首 轮 不 出 A) = 4.3831

$I(庄家首轮不出A)=4.3831$ 可以看出来，庄家首轮不出A比出A带来的信息量大得多。如果我们把庄家首轮出牌看出一个事件，那么这个事件的熵为：

H (庄 家 首 轮 出 牌) = 0.2775

$H(庄家首轮出牌)=0.2775$
单独看这个数值感觉没什么意义，我们可以换个角度对比一下。如果我们用一副牌而不是两幅牌来打升级，庄家和闲家拿到几个 A 的概率则分别为：

拿几张A	n=0	n=1	n=2	n=3	n=4
概率	p=0.186	p=0.406	p=0.305	p=0.093	p=0.010

拿几张A	n=0	n=1	n=2	n=3	n=4
概率	p=0.354	p=0.436	p=0.180	p=0.029	p=0.002

类似的，我们可以计算出庄家首轮出 A 和不出 A 的信息量分别为：

I (庄 家 首 轮 出 A) = 0.2974

$I(庄家首轮出A)=0.2974$

I (庄 家 首 轮 不 出 A) = 2.4246

$I(庄家首轮不出A)=2.4246$ 庄家首轮出牌的熵可以计算为：

H (庄 家 首 轮 出 牌) = 0.6936

$H(庄家首轮出牌)=0.6936$ 可以看出，打一副牌时，庄家首轮出牌的熵更大，也就是更混乱，信息更多，更难预测。其实这也契合打牌的时间感觉，打两副牌时庄家手里握有A的概率更大，首轮出A的情况更为常见更好预测；而打一副牌时则更容易出现庄家起手没有A的情况，也就是说打一副牌时，首轮庄家的出牌更难预测一些。

注：其实根据熵，我们还可以衡量某个事件能被准确预测的程度。通过Fano’s inequality可以给出预测准确度的上界。无奈我对Fano’s inequality的理解还不过透彻，暂时没法写出来，以后更理解了可能会再补充道这里。
再注：关于熵的话题的兴趣来自于今天看的一篇Science上的文章，Limits of Predictability in Human Mobility。关于打升级话题的兴趣来自于最近在放假。