Notes on Probability Essentials - 2 - Conditional Probability and Independence

原创 2015年07月09日 03:19:40

百年歌自苦,未见有知音。
——杜甫,《南征》

Definition 1 (a) Two events A and B are independent if P(AB)=P(A)P(B).
(b) A (possibly infinite) collection of events (Ai)iI is an independent collection if for every finite subset J of I one has

P(iJAi)=iJP(Ai)

The collection (Ai)iJ is often said to be mutually independent.

Theorem 1 If A and B are independent, so also are A and Bc, Ac and B, Ac and Bc
Proof: For A and Bc,

P(ABc)=P(A)P(AB)=P(A)P(A)P(B)=P(A)(1P(B))=P(A)P(Bc)

For Ac and B,
P(AcB)=P(B)P(AB)=P(B)P(A)P(B)=P(B)(1P(A))=P(Ac)P(B)

For Ac and Bc,
P(AcBc)=P(Ac)P(AcB)=P(Ac)P(Ac)P(B)=P(Ac)(1P(B))=(1P(A))(1P(B))=P(Ac)P(Bc)

Definition 2 Let A,B be events, P(B)>0, the conditional probability of A given B is P(A|B)=P(AB)/P(B).

Remark. 在这里谈一下对条件概率的感性认识。 许多时候,一个事情的发生多多少少会影响另外一件事情发生的可能性。
那么计算方法为什么是P(A|B)=P(AB)P(B)呢?P(AB)代表两个事件同时发生,现在确实是同时发生了,但是原先B的发生并不是必然的,例如原先只有5%的可能性会发生B,但是现在这个5%已经确定必然发生了,变成了100%,放大了20倍,那么这样一来A发生的概率也就跟着“等比例放大了20倍”。
若这样凭空感受太抽象,那不妨举个著名的例子——(Monty Hall Problem),这可能是历史上最有争议的概率问题,问题看似简单但正确答案如此有悖常理以至于很多人不能接受。问题描述如下——


  • Monty向你展示三个关闭的大门,然后告诉你每个门后都有一个奖品:一个奖品是一辆车,另外两个是不值钱的东西。
  • 游戏的目的是要猜哪个门后有车。如果猜对了就可以拿走汽车。
  • 你先挑选一扇门,我们暂且称之为A,其他两个门称之为B和C。
  • 再打开你选中的门前,为了增加悬念,Monty会先打开B或C中一个没有车的门。
  • 然后Monty给你一个选择,坚持最初的选择还是换到剩下未打开的门。
    大多数人都会认为既然剩下的门没被打开,那么汽车在A门或者在剩下那个门的概率都应该是50%,但事实上,如果你坚持选A,你中奖的概率只有1/3,而如果你换到另一扇门,你中奖的概率会立马翻倍变成2/3.
    (1)我首先不采用贝叶斯定理来进行一个通俗解释——
    当时还剩下两扇门,门A或者另一扇门,二者当中有一个门有汽车,另一个没有。你最初选择门A的时候,中奖的可能性是1/3。如果你采取了“换”的策略,那么实质上将决定性地改变你中奖或者不中奖(如果原先你是中汽车的,换完以后必然就不中了。如果原先A门不是汽车,那一旦换完门你必然就中汽车了)。基于这一点,由于A门是汽车的可能性是1/3,进行换门以后这个1/3就成了你不中奖的概率。自然而然换门后你中奖的概率就是2/3了。
    (2)下面用贝叶斯定理来进行推导,WLOG,我们假设开始选择的是门A,Monty打开的是门B,令D=”Monty打开门B且B没有车”。已知条件如下P(A)=P(B)=P(C)=13,这是先验概率。现在要求P(A|D)以及P(C|D)这两个值。
    P(D)P(A|D)P(C|D)===13×12+13×0+13×1=12P(AD)P(D)=13×1212=13P(CD)P(D)=13×112=23

Note:这里的重点其实在于D的描述以及P(D),P(AD), P(CD)的计算. P(D)的计算我这里分了三种情况13情况下A门有汽车时打开B门的可能性为12, B门有汽车时打开B门可能性为0,C门有汽车时打开B门可能性为100%,相加后P(D)=12P(AD),P(CD)就不说了,同理。
Theorem 2 Suppose P(B)>0.
- A,B are independent iff P(A|B)=P(A)
- The operation AP(A|B) from A[0,1] defines a new probability measure on A, called the “conditional probability measure given B”.

Proof: Part(1) seems to be a direct result from Definition 1 and Definition 2.
Part(2), define Q(A)=P(A|B), with B fixed. We must show Q satisfies the definition of a probability measure.

Q(Ω)=P(Ω|B)=P(ΩB)P(B)=P(B)P(B)=1

If (An)n1 is a sequence of elements of A which are pairwise disjoint, then
Q(n=1An)=P(n=1An|B)=P(n=1(AnB))P(B)

also the sequence (AnB)n1 is pairwise disjoint as well; thus
=n=1P(AnB)P(B)=n=1P(An|B)=n=1Q(An)

Theorem 3 If A1,...,AnA and if P(A1...An1)>0, then

P(A1...An)=P(A1)P(A2|A1)P(A3|A1A2)...P(An|A1...An1)

Proof.(draft) By Induction. For n=2, the theorem is simply Definition 2. Suppose the theorem holds for n1 events. Let B=A1...An1

Theorem 4 (Partition Equation). Let (En)n1 be a finite or countable partition of Ω. Then if AA,

P(A)=nP(A|En)P(En)

Theorem 5 (Bayes’ Theorem) Let (En) be a finite or countable partition of Ω and suppose P(A)>0. Then

P(En|A)=P(A|En)P(En)mP(A|Em)P(Em)

Note: 贝叶斯定理的表述极其简单,等式右侧分子为P(AEn),分母为P(A),基本就是条件概率公式遇到互斥事件(Em)时的一种应用而已。可是不难看出这样的一种“展开形式”给P(En|A)P(A|En)这两个量之间建立了一种关联,于是贝叶斯定理成了一个具有里程碑意义的重要定理。
点击这里查看贝叶斯定理的一个应用:《用贝叶斯定理来讨论“医疗诊断的可靠性到底有多少”》

版权声明:本文为博主原创文章,如需转载请注明来源。

相关文章推荐

贝叶斯思维(实例1)——贝叶斯基础框架

贝叶斯基础框架及在选择时的使用

Classification Probability Models and Conditional Random Fields(2)--HMM

在上一篇Classification Probability Models and Conditional Random Fields(1)中,介绍了朴素贝叶斯分类方法,朴树贝叶斯分类方法中对于输入向...

Notes on Probability Essentials - 1 - Axioms of Probability

“他说 / 你任何为人称道的美丽 / 不及他第一次遇见你。” ——《南山南》 本文用尽可能少的内容提供了建立概率测度(probability measure)所需要的公理和定义。 Abstr...

Classification Probability Models and Conditional Random Fields(1)--Naive Bayes

目前正在学习自然语言处理相关的概率模型,在一篇名为《Classification Probability Models and Conditional Random Fields》论文中讲述了常用的几...

Classification Probability Models and Conditional Random Fields(3)

上面介绍的两个模型都是为了计算的得到输入序列和输出标记的最大联合概率,在下面将讨论最大熵模型(Maximum Entropy Model)。最大熵模型计算的是标记序列对于输入变量的条件概率,它是CRF...

Study notes for Continuous Probability Distributions

This article describes the basics of probability and the most commonly used continuous probability d...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)