在实际生活中,许多有价值的变量都能以条件概率这一概念来表述,比如含免费这一单词的邮件很可能是广告,这种○○条件下事件××的概率称为条件概率。
我们来看个例子,扑克牌的颜色及X、Y的联合分布如下:
- | - | - | - |
---|---|---|---|
红色 J | 红色 Q | 红色 K | 红色 J |
红色 Q | 红色 K | 红色 1 | 红色 2 |
黑色 K | 黑色 1 | 黑色 2 | 红色 3 |
黑色 3 | 黑色 4 | 黑色 5 | 黑色 6 |
得出以下结论
- | Y = 数字牌 | Y = 人头牌 |
---|---|---|
X = 红色 | 3/16 | 6/16 |
X = 黑色 | 6/16 | 1/16 |
我们先来分析X=红色的情况,实际上,X=红色的世界有1/3的Y=数字牌,2/3的Y=人头牌。我们可以通过以下方式来表述:
P(Y = 数字牌 | X = 红色) = 1/3
P(Y = 人头牌 | X = 红色) = 2/3
它们分布表示的如下含义:
- 在条件X=红色成立时,Y=数字牌的条件概率是1/3
- 在条件X=红色成立时,Y=人头牌的条件概率是2/3
这些统称为在条件X=红色下Y的条件分布,其中的竖线|在英语中一般读作given。
下式是条件概率的通用定义:
P(Y=b|X=a)=p(X=a,Y=b)P(X=a)
联合概率,边缘概率,条件概率关系如下:
- 联合概率P(X = a, Y = b)
满足X=a且Y=b的区域的面积 - 边缘概率P(X = a)
不考虑Y的取值,所有满足X=a的区域的总面积 - 条件概率P(Y = b | X = a)
在X=a的前提下,满足Y=b的区域的面积
我们可以像下面这样通过边缘分布和条件分布来表示联合分布
P(X = a, Y = b) = P(X = a | Y = b) P(Y = b)
P(X = a, Y = b) = P(Y = b | X = a) P(X = a)