统计推断——独立事件、条件概率、贝叶斯定理(先验分布/后验分布/似然估计)

一、独立事件

如果E 发生意味着F 发生(或者F 发生意味着E 发生),我们就称事件E 与事件F 为不相互独立(dependent)。反之,E 与F 就相互独立(independent)。

从数学角度讲,事件E 和事件F 独立意味着两个事件同时发生的概率等于它们分别发生的概率的乘积:
P(E, F)=P(E)P(F),其中P(E, F)表示事件E 和事件F同时发生的概率。

二、条件概率

如果事件E 与事件F 独立,那么定义式如下:
P(E, F)=P(E)P(F)
如果两者不一定独立(并且F 的概率不为零),那么E 关于F 的条件概率式如下:
P(E|F)=P(E, F)/P(F)
条件概率P(E|F)可以理解为,已知F 发生,E 会发生的概率。
更常用的公式是上式的变形:
P(E, F)=P(E|F)P(F)
如果E 和F 独立,则上式应该表示为:
P(E|F)=P(E)
这个数学公式意味着,F 是否发生并不会影响E 是否发生的概率。
举一个常见的关于一个有两个孩子(性别未知)的家庭的有趣例子。
如果我们假设:
(1) 每个孩子是男孩和是女孩的概率相同。
(2) 第二个孩子的性别概率与第一个孩子的性别概率独立。
那么,事件“没有女孩”的概率是1/4,事件“一个男孩,一个女孩”的概率为1/2,事件“两个女孩”的概率为1/4。
现在,我们的问题是,事件B“两个孩子都是女孩”关于事件G“大孩子是女孩”的条件概率是多少?用条件概率的定义式进行计算如下:
P(B|G)=P(B, G)/P(G)=P(B)/P(G)=1/2
事件B 与G 的交集(“两个孩子都是女孩并且大孩子是女孩”)刚好是事件B 本身。(一旦你知道两个孩子都是女孩,那大孩子必然是女孩。)这个结果大致上符合你的直觉。
我们接着再问,事件“两个孩子都是女孩”关于事件“至少一个孩子是女孩”(L)的条件概率是多少?出乎意料的是,结果异于前问。与前问相同的是,事件B 和事件L 的交集(“两个孩子都是女孩,并且至少一个孩子是女孩”)刚好是事件B。这意味着:
P(B|L)=P(B, L)/P(L)=P(B)/P(L)=1/3
为什么会有这样的结果?如果你已知至少一个孩子是女孩,那么这个家庭有一个男孩和一个女孩的概率是有两个女孩的两倍。

三、贝叶斯定理

贝叶斯定理是数据科学家的最佳朋友之一,它是条件概率的某种逆运算。假设我们需要计算事件E 基于已发生的事件F 的条件概率,但我们已知的条件仅仅是事件F 基于已发生的事件E 的条件概率。两次利用条件概率的定义,可以得到下式:

P(E|F) = P(E, F)/P(F) = P(F|E)P(E)/P(F)
事件F 可以分割为两个互不重合的事件“F 和E 同时发生”与“F 发生E 不发生”。我们用符号E^{C} 指代“非E”(即“E 没有发生”),有下式:
P (F) = P (F, E) + P (F, E^{C})
因此:
P(E|F) = P(F|E)P(E)/[P(F|E)P(E)+P(F|E^{C})P(E^{C})]
上式为贝叶斯定理常用的表达方式。
贝叶斯定理常常用来证明为什么数据科学家比医生更聪明。假设有这样一种病,10 000 个人中会有一个得这个病。还假设有种针对该病的测试,具有99% 的可能性能给出正确判断(如果患病,测试显示“有病”,如果健康,则显示“无病”)。阳性的测试结果意味着什么呢?我们用T 表示“测试结果阳性”,用D 表示“你患有该病”。那么,根据贝叶斯定理,如果测试结果为阳性,那么你患有该病的概率是:
P(D|T) = P(T|D)P(D)/[P(T|D)P(D)+P(T|D^{C})P(D^{C})]
我们知道,P(T |D),即一个人测试结果为阳性并且本人实际患病的概率为0.99。P(D),即一个人实际患病的概率是1/10 000=0.0001 。P(T |D^{C}),即一个不患病的人检测结果呈阳性的概率是0.01 。P(D^{C}),即一个人实际上不患该病的概率为0.9999 。如果将以上数据代入
贝叶斯定理,可得:
P(D|T) = 0.98%
结果表示,测试结果为阳性的人实际患病的概率不到1%。

对于数据科学家来说,这是小菜一碟,但大部分医生会猜测P(D |T) 的值接近2。一个更直观的计算方式是,首先假设总体包括1 百万个人。你预期其中100 个人患有该病,而这100 个人中会有99 个测试结果显示阳性。另一方面,你认为999 900 个人不患有该病,其中9999 个人测试结果呈阳性。这意味着在(99+9999)个测试结果呈阳性的人中,你认为仅有99 个人实际上患有该病。

下面我们通过一个场景来介绍先验分布、后验分布及似然估计

小哥要去15公里外的一个公园,他可以选择步行走路,骑自行车或者开辆车,然后通过其中一种方式花了一段时间到达公园。

这件事中采用哪种交通方式是因,花了多长时间是果。

1、后验分布(知果求因)

假设已经知道小哥花了3个小时才到公园,这个时候我们猜的时候会觉得他很大可能是静静地走路过去的。但是假设已经知道小哥只花了20分钟才到公园,那么正常人会觉得他最大可能是开车奔驰而去。

这种预先已知结果(路上花的时间),然后根据结果估计原因(交通方式)的概率分布即 后验概率。

例子问题公式化:P(交通方式∣花费的时间)

修改成一般的公式:P(因∣果)

公式正规化:P(\thetax),其中\theta代表因、x代表果

2、先验分布(由历史求因)

换个情景,我们不再考虑小哥去公园的结果了。

假设我们比较了解小哥的个人习惯,小哥是个喜欢跑步运动的人,这个时候我们可以猜测他更可能倾向于走路过去。

这个情景中小哥的交通工具选择与花费时间不再相关。因为我们是在结果发生前就开始猜的,根据历史规律确定原因 (交通方式)的概率分布即 先验概率

例子问题公式化:P(交通方式)

修改成一般的公式:P(因)

公式正规化:P(\theta),其中\theta代表因

3、似然估计(由因求果)

换个情景,我们先重新考虑隔壁小哥去公园的交通方式。

假设隔壁小哥步行走路去,15公里的路到公园,一般情况下小哥大概要用2个多小时,当然很小的可能性是小哥是飞毛腿,跑步过去用了1个小时左右,极为小的可能是小哥是隐藏的高手,10分钟就轻功跑酷到了。

小哥决定开车,到公园半个小时是非常可能的,非常小的概率是小哥因为途径的路上有车祸堵了3个小时。

这种先定下来原因,根据原因来估计结果的概率分布即 似然估计。根据原因来统计各种可能结果的概率即似然函数。

似然函数问题公式化:P(时间∣交通方式)

一般化:P(果∣因)

正规化:P(x\theta),其中\theta代表因、x代表果

4、贝叶斯公式

我们熟知的贝叶斯公式是这样的:
P(A\mid B)=\frac{P(B\mid A)\cdot P(A)}{P(B)}

但在这里我们采用如下形式:
P(\theta \mid x)=\frac{P(x\mid \theta )\cdot P(\theta )}{P(x)}

后验概率=似然估计∗先验概率后验概率=(似然估计∗先验概率)/evidence

注:P(x) 即 evidence。小哥去公园很多次,忽略交通方式是什么,只统计每次到达公园的时间 x,于是得到了一组时间的概率分布。这种不考虑原因,只看结果的概率分布即 evidence,它也称为样本发生的概率分布的证据。

evidence 在故事中如下表示:P(时间)或P(果)

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xia ge tou lia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值