原文地址1:https://www.face2ai.com/Math-Probability-3-6-Conditional-Distributions-P1转载请标明出处
Abstract: 首先介绍随机变量的条件分布,随后介绍随机变量条件分布下的乘法法则,贝叶斯公式和全概率公式
Keywords: Discrete Conditional Distributions,Continuous Conditional Distributions,Multiplication Rule,Bayes’ Therom,Law of Total Probability
条件分布
隔了半个月没有研究数学,早上起来还激动不已,看了两页书好几脸懵x
“如何变成一个真正的行家”
- 花几年时间进行紧张的学习,直到你觉得自己在行
- 离开几年,去探索更多其他的领域,无论是否有关
- 回到原来的领域,换个角度,重新掌握它
也许这与传统观点相悖,但你可以不用练习就升级,有时候这是升级的唯一办法
上面这段话引自Francois Chollet
这段话不适合小菜,只适合大牛们冲击天花板,我们小菜现在要做的就是第一步,花几年时间进行紧张的学习。
简短的回顾下前面的内容,我们从试验出发,然后得到事件,从事件引出对应的概率,然后把事件数字化后,随机变量作为一个函数成为我们研究的对象,在研究事件的时候我们研究了形如
P
r
(
A
∣
B
)
Pr(A|B)
Pr(A∣B) 的事件的条件概率,并且把它用到了全概率公式,贝叶斯公式等,并了解到其性质和普通事件的概率一致,甚至所有事件都可以定义为条件事件,条件概率从一开始就注定成为我们研究的重要一部分,所以当事件数字化之后,条件分布也就成了研究的重点,没错,我们今天这一大篇都是研究条件分布的,目前之研究两个随机变量的条件分布,多变量的可以依靠两个变量的推导出来。
在联合分布中的条件分布,上一篇的边缘分布也是我们要使用到的,所以上一篇的内容需要大家详细掌握。
离散条件分布 Discrete Conditional Distributions
上来先举个🌰 :
保险公司想要研究哪种型号的车更容易被盗,研究出了下面这个表的数据:
表中1表示被盗,0表示没有被盗,Y表示车型,保险公司会根据不同的车型设定保险金(奸商都特别会算账,不然会赔到死),如果我们不知道你是什么车,从表上我们只能根据X的边缘密度
P
r
(
x
=
1
)
=
∑
y
P
r
(
x
=
1
,
y
)
=
0.024
Pr(x=1)=\sum_{y}Pr(x=1,y)=0.024
Pr(x=1)=∑yPr(x=1,y)=0.024 来估计你的车被盗的风险,但是如果你要是告诉我,你的车型是3,那么你被盗 的可能性就是
P
r
(
x
=
1
,
y
=
3
)
=
0.001
Pr(x=1,y=3)=0.001
Pr(x=1,y=3)=0.001 了
所以,当一个联合分布中,我们知道一个随机变量x发生了,另一个随机变量y发生的概率从原来的
P
r
(
y
)
Pr(y)
Pr(y) 变成了
P
r
(
y
∣
x
)
Pr(y|x)
Pr(y∣x) 而从相对关系上来看满足下面的关系:
P
r
(
X
=
x
∣
Y
=
y
)
=
P
r
(
X
=
x
and
Y
=
y
)
P
r
(
Y
=
y
)
=
f
(
x
,
y
)
f
2
(
y
)
Pr(X=x|Y=y)=\frac{Pr(X=x \text{ and } Y=y)}{Pr(Y=y)}=\frac{f(x,y)}{f_2(y)}
Pr(X=x∣Y=y)=Pr(Y=y)Pr(X=x and Y=y)=f2(y)f(x,y)
所以我们就能引出定义:
Definition Conditional Distribution/p.f. Let X and Y have a discrete joint distribution eith joint p.f. f f f .Let f 2 f_2 f2 denote the marginal p.f. of Y Fot each y such that f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 ,define:
g 1 ( x ∣ y ) = f ( x , y ) f 2 ( y ) g_1(x|y)=\frac{f(x,y)}{f_2(y)} g1(x∣y)=f2(y)f(x,y)
Then g 1 g_1 g1 is called the conditional p.f. of X given Y.The discrete distribution whose p.f. is g 1 ( ⋅ ∣ y ) g_1(\cdot |y) g1(⋅∣y) is called the conditional distribution of X X X given that Y = y Y=y Y=y
定义大概就是上面的样子了,但是我们需要确认一下
g
1
(
x
∣
y
)
g_1(x|y)
g1(x∣y) 这货到底是不是个分布,证明如下,假设
f
2
(
y
)
>
0
f_2(y)>0
f2(y)>0 ,
g
1
(
x
∣
y
)
>
0
g_1(x|y)>0
g1(x∣y)>0 那么对于所有
x
x
x 来说:
∑
x
g
1
(
x
∣
y
)
=
1
f
2
(
y
)
∑
x
f
(
x
,
y
)
=
1
f
2
(
y
)
f
2
(
y
)
=
1
\sum_x g_1(x|y)=\frac{1}{f_2(y)}\sum_xf(x,y)=\frac{1}{f_2(y)}f_2(y)=1
x∑g1(x∣y)=f2(y)1x∑f(x,y)=f2(y)1f2(y)=1
一个随机变量的概率分布必须满足所有值都大于0 , g 1 ( x ∣ y ) > 0 g_1(x|y)>0 g1(x∣y)>0 满足条件,并且所有可能的概率和是1,上面式子也证明了,所以 g 1 g_1 g1 是一个概率分布,Q.E.D
举个计算的🌰 :
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-acYAz2I2-1592531484510)(https://tony4ai-1251394096.cos.ap-hongkong.myqcloud.com/blog_images/Math-Probability-3-6-Conditional-Distributions-P1/table3_4.png)]
根据上面的数据计算p.f. of
Y
Y
Y given
X
=
2
X=2
X=2
g
2
(
y
∣
2
)
=
f
(
2
,
y
)
f
1
(
x
=
2
)
=
f
(
2
,
y
)
0.6
g_2(y|2)=\frac{f(2,y)}{f_1(x=2)}=\frac{f(2,y)}{0.6}
g2(y∣2)=f1(x=2)f(2,y)=0.6f(2,y)
因为本🌰是个离散有限的,可以很容易的求出所有情况下的值:
g
2
(
1
∣
2
)
=
1
/
2
g_2(1|2)=1/2
g2(1∣2)=1/2
g
2
(
2
∣
2
)
=
0
g_2(2|2)=0
g2(2∣2)=0
g
2
(
3
∣
2
)
=
1
/
6
g_2(3|2)=1/6
g2(3∣2)=1/6
g
2
(
4
∣
2
)
=
1
/
3
g_2(4|2)=1/3
g2(4∣2)=1/3
注意当边缘分布中对应的是0的情况,也就是分母是0的情况,是没有意义的,为什么?首先我们可以从代数的角度理解,分母不能为零,其次,我们从概率的角度理解,不可能发生的事件或随机变量概率是0,如果这个事件发生了,那么他就不可能有概率0,所以前后矛盾,分母不能为0。
连续条件分布 Continuous Conditional Distributions
上面说明白了离散情况下的条件分布,用到了前一篇中的边缘分布,那么连续情况下的条件分布会是什么样呢?
还是先举个🌰 :
一个工序需要两步完成,第一阶段需要Y分钟,整个过程需要X分钟(包括前面的Y分钟),假设X和Y满足下面的连续分布,joint p.d.f.如下:
f ( x , y ) = { e − x for 0 ≤ y ≤ x < ∞ 0 otherwise f(x,y)= \begin{cases} e^{-x}&\text{ for }0\leq y\leq x<\infty &\\ 0 &\text{otherwise}& \end{cases} f(x,y)={e−x0 for 0≤y≤x<∞otherwise
当我们知道Y用了多久以后,我们就能重新评估X的分布,换句话说,当我们得知 Y = y Y=y Y=y发生时 求 g 1 ( x ∣ Y = y ) g_1(x|Y=y) g1(x∣Y=y) 的分布
Definition 3.6.2 p.d.f. :Let X X X and Y Y Y have a continuous joint distribution with joint p.d.f. f f f and respective marginals f 1 f_1 f1 and f 2 f_2 f2 .Let y y y be a value such that f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 .Then the conditional p.d.f. g 1 g_1 g1 of X X X given that Y = y Y=y Y=y is defined as follows:
g 1 ( x ∣ y ) = f ( x , y ) f 2 ( y ) for − ∞ < x < ∞ g_1(x|y)=\frac{f(x,y)}{f_2(y)}\text{ for }-\infty<x<\infty g1(x∣y)=f2(y)f(x,y) for −∞<x<∞
For values of y such that f 2 ( y ) = 0 f_2(y)=0 f2(y)=0 ,we are free to define g 1 ( x ∣ y ) g_1(x|y) g1(x∣y) however we wish ,so long as g 1 ( x ∣ y ) g_1(x|y) g1(x∣y) is a p.d.f. as a function of x x x
上面就是关于连续随机变量的条件pdf的定义,与离散情况下的条件p.f.的定义非常相似,但是需要注意的是,一个是p.d.f.一个是p.f. 这个就是本质的区别
Theorem: For each y y y , g 1 ( x ∣ y ) g_1(x|y) g1(x∣y) defined in Definition 3.6.2 is a p.d.f. as a function of x x x
这个定理要证明的也是,经过我们一些列计算,得到的新的函数,是否满足p.d.f.的要求,证明如下:
- f 2 ( y ) = 0 f_2(y)=0 f2(y)=0 分母是0,没有计算意义
- f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 明显有 g 1 ( x ∣ y ) ≥ 0 g_1(x|y)\geq0 g1(x∣y)≥0
- if
f
2
(
y
)
>
0
f_2(y)>0
f2(y)>0
∫ − ∞ ∞ g 1 ( x ∣ y ) d x = ∫ − ∞ ∞ f ( x , y ) d x f 2 ( y ) = f 2 ( y ) f 2 ( y ) = 1 \int^{\infty}_{-\infty}g_1(x|y)dx=\frac{\int^{\infty}_{-\infty}f(x,y)dx}{f_2(y)}=\frac{f_2(y)}{f_2(y)}=1 ∫−∞∞g1(x∣y)dx=f2(y)∫−∞∞f(x,y)dx=f2(y)f2(y)=1
Q.E.D
定理为了确定我们一系列计算得到仍然是p.d.f,证明了三点性质(其实是2点),保证函数满足p.d.f.的基本需求。参考,p.d.f.的定义
继续上面关于工序的例子,我们来计算条件分布,当已知
Y
=
y
Y=y
Y=y 的时候我们知道
x
≥
y
x\geq y
x≥y所以计算边缘分布:
f
2
(
y
)
=
∫
y
∞
e
−
x
d
x
=
e
−
y
f_2(y)=\int^\infty_{y}e^{-x}dx=e^{-y}
f2(y)=∫y∞e−xdx=e−y
对于所有的
y
>
0
y>0
y>0 :
g
1
(
x
∣
y
)
=
f
(
x
,
y
)
f
2
(
y
)
=
e
−
x
e
−
y
=
e
y
−
x
,
for
x
≥
y
g_1(x|y)=\frac{f(x,y)}{f_2(y)}=\frac{e^{-x}}{e^{-y}}=e^{y-x},\text{ for }x\geq y
g1(x∣y)=f2(y)f(x,y)=e−ye−x=ey−x, for x≥y
当
x
<
y
x<y
x<y 的时候
g
1
(
x
∣
y
)
=
0
g_1(x|y)=0
g1(x∣y)=0
这个例子暂时告一段落,我们下面展示一张图来可视化一下连续随机变量的条件分布,因为离散情况下很容易想象,所以我们把连续的随机变量表示一下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jW78xfcO-1592531484512)(https://tony4ai-1251394096.cos.ap-hongkong.myqcloud.com/blog_images/Math-Probability-3-6-Conditional-Distributions-P1/p_d_f.png)]
看图说话,完整的曲面是二维随机变量的联合p.d.f. 那么其中一个切片
x
=
x
0
x=x_0
x=x0 或者
y
=
y
0
y=y_0
y=y0 都能得到一个切片,这个切片即使条件分布的一个伸缩,为什么是伸缩,因为其积分不是1,为了让他的积分为1,或者说正规化,我们需要给他一个系数:
1
f
1
(
x
)
\frac{1}{f_1(x)}
f1(x)1 或者
1
f
2
(
y
)
\frac{1}{f_2(y)}
f2(y)1 ,这样就能保证其积分为
∫
−
∞
∞
f
(
x
0
,
y
)
f
1
(
x
0
)
=
1
\int^\infty_{-\infty} \frac{f(x_0,y)}{f_1(x_0)}=1
∫−∞∞f1(x0)f(x0,y)=1 或者
∫
−
∞
∞
f
(
x
,
y
0
)
f
2
(
y
0
)
=
1
\int^\infty_{-\infty} \frac{f(x,y_0)}{f_2(y_0)}=1
∫−∞∞f2(y0)f(x,y0)=1
一点需要注意,我们说过,p.d.f和pf的区别在于,p.d.f.的单点对应的函数值没有意义,其区间内的积分才能反映区间的概率,那么上述式子中
f
(
x
0
,
y
)
f(x_0,y)
f(x0,y) 是0肯定没错了因为这个单变量函数没有体积,如果你还不明白,就看上面的图,并且确定二维随机变量只有一块区域内的体积才有意义,那么
x
=
x
0
x=x_0
x=x0 确定的平面,不管怎么算体积都是0,也就是对应的概率是0.
那么实际上严谨的连续条件分布的定义应该是这样的:
g
1
(
x
∣
y
)
=
l
i
m
ϵ
→
0
∂
∂
x
P
r
(
X
≤
x
∣
y
−
ϵ
<
Y
≤
y
+
ϵ
)
g_1(x|y)=lim_{\epsilon \to 0}\frac{\partial}{\partial x}Pr(X\leq x|y-\epsilon < Y \leq y+ \epsilon)
g1(x∣y)=limϵ→0∂x∂Pr(X≤x∣y−ϵ<Y≤y+ϵ)
是这样的一个极限,首先用到的是c.d.f.到p.d.f.的求偏导,然后是给了y一个小区间,使得积分有意义。
剩下的就是混合分布了,一个连续随机变量一个离散随机变量,做法也很简单,各算各的,互不干扰
Definition Conditional p.f. or p.d.f. from Mixed Distribution: Let X X X discrete and let Y Y Y be continuous with joint p.f./p.d.f. f.Then the conditional p.f. of X X X given Y = y Y=y Y=y is defined by Eq.(3.6.2) and the conditional p.d.f of Y Y Y given X = x X=x X=x is defined by Eq.(3.6.3)
上面说的3.6.2 就是离散条件分布定义中的计算公式,同样的3.6.3就是连续条件分布定义中的计算公式。
总结
本文较前几篇有点短小,但是介绍的东西确实重要很多,Part II 介绍条件概率分布的构成,欢迎大家继续收看。