可视化信息理论(Visual Information Theory) (上)

点击阅读原文
我喜欢用一种新的方式来认识世界,尤其是当一些模糊的认知被形象化为一个具体的概念。信息原理就是一个最好的例子。
信息原理对我们阐述很多事情提供了准确的描述。我有多不确定?知道问题A的答案可以让我了解多少关于问题B的答案?一套信仰与另一套有多相似?对于这些问题,当我是小孩的时候就听到了许多不同版本的答案,但是运用信息原理可以让这些回答成为更准确更有价值的概念,这些概念对于压缩数据,量子力学,机器学习等等这些领域都有巨大的使用价值。
不幸的是,这些信息原理看起来有点高深莫测。但我不这么认为,事实上,这些核心的概念都可以被解释得很形象。

Visualizing Probability Distributions

概率分布可视化
在我们引入信息理论之前,我们先来试试如何将一个简单的概率分布可视化。我们稍后也会需要用到这些,现在提出来会容易接受。这些可视化概率的方法是很有用处的。
现在我在California。有时候会下雨,但是大多数情况下是晴天。我们假设75%的时间是晴天,所以就有下面这张图:


天气信息描述

大多数时间,我穿T恤,但是有些时候要穿外套。假设我有38%的时间穿外套,同样的我们可以为此也做一张图:

外套描述

如何同时描述两者信息?当他们相互无关,即他们是相互独立时,这就比较简单,比如我今天穿什么与下周的天气毫无关系,它们是相互独立的事件,那么我们可以用两条轴线分别表示这两个事件:
相互独立

我们注意到,中间的两条直线(一条横线,一条竖线)是直接穿过矩形的,这张图就表示的是独立事件。下周要下雨的事实并不会改变穿外套的概率,换句话说P(穿外套*下雨)=P(穿外套)*P(下雨),所以他们相互独立(矩形的边对应到横纵坐标轴上的数值就分别是两个事件发生的概率,可以看到中间的线都是笔直的,对应到坐标上的标尺就相同,即没有受到其它变量的影响)。
当变量相互影响,概率在其它变量的影响下变大或减少,即穿外套和下雨同时发生的概率就会增加,穿外套时的天气会有更高概率是雨天,晴天概率减少。

这里写图片描述

这个张图就会显得不太一样(此时线条对应到坐标上的概率因受到其它变量的影响会有变化,表现在图形上就是弯曲的),接下来换种方式来表示,我们更容易理解。
我们把注意力集中到一个变量上,如天气。天气可能是雨天或晴天。对于这两种情况,我们考虑条件概率:如果是晴天,我穿外套的概率是多少,如果是雨天,我穿外套的概率又是多少:

这里写图片描述

所以可以看出,天气有25%的概率是下雨天。下雨天时,穿外套的概率是75%,所以下雨同时又穿了外套的概率就是我穿外套的概率25%乘以75%,算出来接近19%。也就是说,下雨天同时穿了外套的概率等于天气是下雨天的概率乘以在下雨的情况下穿了外套的概率:
p(rain,coat)=p(rain)p(coat|rain)

更一般的我们有以下概率的基本特性:
p(x,y)=p(x)p(y|x)

我们把这个分布因式分解,把它拆分成2个部分,第一个部分是我们看到的一件事情发生的概率,比如天气。然后我们可以看到另外一个事件,比如我的衣着,是在第一件事情发生的情况下的条件概率。
可以任意选择哪个变量作为首先发生的事件。之前我们是选择天气作为条件事件,现在可以选择从衣着作为条件事件开始分析。这有可能有点难以理解,因为我们的穿着都随着天气而改变,这种因果关系比较符合常识,如果换过来可能会有点奇怪,但是它仍然符合我们的结论。
来看一个例子,如果有一天,有38%的概率穿外套,如果在这一天已经穿了外套那么这天下雨的概率是多少呢?当然在下雨天穿外套的概率比在晴天穿的概率大很多,但是California的天气很少下雨,所以结果是有50%的概率在下雨。所以我穿外套同时又是雨天的概率就等于我穿外套的概率乘以穿外套的情况下是雨天的概率,即38%*50%=19%
p(rain,coat)=p(coat)p(rain|coat)

这就有了第二种方法来可视化这种相同的条件分布:

条件概率

注意上图中的标签与之前图有些不一样,T恤和外套现在是边际概率(marginal probabilities) ,即不考虑天气的单个事件的概率。另一方面,现在有2个“雨天”和“晴天”的标签,对应的分别是在穿外套或T恤情况下两者的概率。
(如果你听说贝叶斯定律(Bayes’ Theorem),可以认为这是针对同一种条件分布的两种不同方式的解释)

Aside: Simpson’s Paradox

这些可视化条件概率的方法真的有用吗?我认为是的!在正真可视化信息原理之前,再说说其它一些稍微离题的东西,用这些方法来探索辛普森悖论(Simpson’s paradox)。这个悖论是一个极端的统计情况,从抽象的思维上是很难理解的, Michael Nielsen写了一个可爱的散文来解释这种悖论。我们现在来用前文提到的可视化方法来尝试解释一下。
两种肾结石治疗方法的测试。有一半的病人用的治疗方法A,另外一半用治疗法B。接受B治疗的病人比接受A治疗的有更高的存活率:


这里写图片描述

然而,小结石的病人接受A治疗方法会有更高的存活率。而结石较大的病人用A治疗也同样有更高的存活率!如何来解释这样的现象?
这个问题的关键是在抽样是没有做到随机性。接受A治疗的病人更多的是大结石的病人,而接受B治疗的病人更多的是小结石的病人。

这里写图片描述

结果可以看到,小结石的病人从总体上讲更如果存活。
为了更好的理解,我们把前面2张图结合到一张图里面。结果就可以看到成为了三维的立体图形,大结石和小结石病人的存活率就区分开了。

这里写图片描述

这样我们就可以看到,针对大结石和小结石病人,治疗A方法都比B方法要好。在整体方面,接受治疗B方法的病人才会相对于A有更高的存活率。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值