【概率论】3-6:条件分布(Conditional Distributions Part I)

原文地址1:https://www.face2ai.com/Math-Probability-3-6-Conditional-Distributions-P1转载请标明出处

Abstract: 首先介绍随机变量的条件分布,随后介绍随机变量条件分布下的乘法法则,贝叶斯公式和全概率公式
Keywords: Discrete Conditional Distributions,Continuous Conditional Distributions,Multiplication Rule,Bayes’ Therom,Law of Total Probability

条件分布

隔了半个月没有研究数学,早上起来还激动不已,看了两页书好几脸懵x

“如何变成一个真正的行家”

  • 花几年时间进行紧张的学习,直到你觉得自己在行
  • 离开几年,去探索更多其他的领域,无论是否有关
  • 回到原来的领域,换个角度,重新掌握它
    也许这与传统观点相悖,但你可以不用练习就升级,有时候这是升级的唯一办法

上面这段话引自Francois Chollet

这段话不适合小菜,只适合大牛们冲击天花板,我们小菜现在要做的就是第一步,花几年时间进行紧张的学习。
简短的回顾下前面的内容,我们从试验出发,然后得到事件,从事件引出对应的概率,然后把事件数字化后,随机变量作为一个函数成为我们研究的对象,在研究事件的时候我们研究了形如 P r ( A ∣ B ) Pr(A|B) Pr(AB) 的事件的条件概率,并且把它用到了全概率公式,贝叶斯公式等,并了解到其性质和普通事件的概率一致,甚至所有事件都可以定义为条件事件,条件概率从一开始就注定成为我们研究的重要一部分,所以当事件数字化之后,条件分布也就成了研究的重点,没错,我们今天这一大篇都是研究条件分布的,目前之研究两个随机变量的条件分布,多变量的可以依靠两个变量的推导出来。
在联合分布中的条件分布,上一篇的边缘分布也是我们要使用到的,所以上一篇的内容需要大家详细掌握。

离散条件分布 Discrete Conditional Distributions

上来先举个🌰 :
保险公司想要研究哪种型号的车更容易被盗,研究出了下面这个表的数据:

表中1表示被盗,0表示没有被盗,Y表示车型,保险公司会根据不同的车型设定保险金(奸商都特别会算账,不然会赔到死),如果我们不知道你是什么车,从表上我们只能根据X的边缘密度 P r ( x = 1 ) = ∑ y P r ( x = 1 , y ) = 0.024 Pr(x=1)=\sum_{y}Pr(x=1,y)=0.024 Pr(x=1)=yPr(x=1,y)=0.024 来估计你的车被盗的风险,但是如果你要是告诉我,你的车型是3,那么你被盗 的可能性就是 P r ( x = 1 , y = 3 ) = 0.001 Pr(x=1,y=3)=0.001 Pr(x=1,y=3)=0.001

所以,当一个联合分布中,我们知道一个随机变量x发生了,另一个随机变量y发生的概率从原来的 P r ( y ) Pr(y) Pr(y) 变成了 P r ( y ∣ x ) Pr(y|x) Pr(yx) 而从相对关系上来看满足下面的关系:
P r ( X = x ∣ Y = y ) = P r ( X = x  and  Y = y ) P r ( Y = y ) = f ( x , y ) f 2 ( y ) Pr(X=x|Y=y)=\frac{Pr(X=x \text{ and } Y=y)}{Pr(Y=y)}=\frac{f(x,y)}{f_2(y)} Pr(X=xY=y)=Pr(Y=y)Pr(X=x and Y=y)=f2(y)f(x,y)

所以我们就能引出定义:

Definition Conditional Distribution/p.f. Let X and Y have a discrete joint distribution eith joint p.f. f f f .Let f 2 f_2 f2 denote the marginal p.f. of Y Fot each y such that f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 ,define:
g 1 ( x ∣ y ) = f ( x , y ) f 2 ( y ) g_1(x|y)=\frac{f(x,y)}{f_2(y)} g1(xy)=f2(y)f(x,y)
Then g 1 g_1 g1 is called the conditional p.f. of X given Y.The discrete distribution whose p.f. is g 1 ( ⋅ ∣ y ) g_1(\cdot |y) g1(y) is called the conditional distribution of X X X given that Y = y Y=y Y=y

定义大概就是上面的样子了,但是我们需要确认一下 g 1 ( x ∣ y ) g_1(x|y) g1(xy) 这货到底是不是个分布,证明如下,假设 f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 , g 1 ( x ∣ y ) > 0 g_1(x|y)>0 g1(xy)>0 那么对于所有 x x x 来说:
∑ x g 1 ( x ∣ y ) = 1 f 2 ( y ) ∑ x f ( x , y ) = 1 f 2 ( y ) f 2 ( y ) = 1 \sum_x g_1(x|y)=\frac{1}{f_2(y)}\sum_xf(x,y)=\frac{1}{f_2(y)}f_2(y)=1 xg1(xy)=f2(y)1xf(x,y)=f2(y)1f2(y)=1

一个随机变量的概率分布必须满足所有值都大于0 , g 1 ( x ∣ y ) > 0 g_1(x|y)>0 g1(xy)>0 满足条件,并且所有可能的概率和是1,上面式子也证明了,所以 g 1 g_1 g1 是一个概率分布,Q.E.D

举个计算的🌰 :
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-acYAz2I2-1592531484510)(https://tony4ai-1251394096.cos.ap-hongkong.myqcloud.com/blog_images/Math-Probability-3-6-Conditional-Distributions-P1/table3_4.png)]
根据上面的数据计算p.f. of Y Y Y given X = 2 X=2 X=2
g 2 ( y ∣ 2 ) = f ( 2 , y ) f 1 ( x = 2 ) = f ( 2 , y ) 0.6 g_2(y|2)=\frac{f(2,y)}{f_1(x=2)}=\frac{f(2,y)}{0.6} g2(y2)=f1(x=2)f(2,y)=0.6f(2,y)
因为本🌰是个离散有限的,可以很容易的求出所有情况下的值: g 2 ( 1 ∣ 2 ) = 1 / 2 g_2(1|2)=1/2 g2(12)=1/2 g 2 ( 2 ∣ 2 ) = 0 g_2(2|2)=0 g2(22)=0 g 2 ( 3 ∣ 2 ) = 1 / 6 g_2(3|2)=1/6 g2(32)=1/6 g 2 ( 4 ∣ 2 ) = 1 / 3 g_2(4|2)=1/3 g2(42)=1/3

注意当边缘分布中对应的是0的情况,也就是分母是0的情况,是没有意义的,为什么?首先我们可以从代数的角度理解,分母不能为零,其次,我们从概率的角度理解,不可能发生的事件或随机变量概率是0,如果这个事件发生了,那么他就不可能有概率0,所以前后矛盾,分母不能为0。

连续条件分布 Continuous Conditional Distributions

上面说明白了离散情况下的条件分布,用到了前一篇中的边缘分布,那么连续情况下的条件分布会是什么样呢?
还是先举个🌰 :

一个工序需要两步完成,第一阶段需要Y分钟,整个过程需要X分钟(包括前面的Y分钟),假设X和Y满足下面的连续分布,joint p.d.f.如下:

f ( x , y ) = { e − x  for  0 ≤ y ≤ x < ∞ 0 otherwise f(x,y)= \begin{cases} e^{-x}&\text{ for }0\leq y\leq x<\infty &\\ 0 &\text{otherwise}& \end{cases} f(x,y)={ex0 for 0yx<otherwise

当我们知道Y用了多久以后,我们就能重新评估X的分布,换句话说,当我们得知 Y = y Y=y Y=y发生时 求 g 1 ( x ∣ Y = y ) g_1(x|Y=y) g1(xY=y) 的分布

Definition 3.6.2 p.d.f. :Let X X X and Y Y Y have a continuous joint distribution with joint p.d.f. f f f and respective marginals f 1 f_1 f1 and f 2 f_2 f2 .Let y y y be a value such that f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 .Then the conditional p.d.f. g 1 g_1 g1 of X X X given that Y = y Y=y Y=y is defined as follows:
g 1 ( x ∣ y ) = f ( x , y ) f 2 ( y )  for  − ∞ < x < ∞ g_1(x|y)=\frac{f(x,y)}{f_2(y)}\text{ for }-\infty<x<\infty g1(xy)=f2(y)f(x,y) for <x<
For values of y such that f 2 ( y ) = 0 f_2(y)=0 f2(y)=0 ,we are free to define g 1 ( x ∣ y ) g_1(x|y) g1(xy) however we wish ,so long as g 1 ( x ∣ y ) g_1(x|y) g1(xy) is a p.d.f. as a function of x x x

上面就是关于连续随机变量的条件pdf的定义,与离散情况下的条件p.f.的定义非常相似,但是需要注意的是,一个是p.d.f.一个是p.f. 这个就是本质的区别

Theorem: For each y y y , g 1 ( x ∣ y ) g_1(x|y) g1(xy) defined in Definition 3.6.2 is a p.d.f. as a function of x x x

这个定理要证明的也是,经过我们一些列计算,得到的新的函数,是否满足p.d.f.的要求,证明如下:

  1. f 2 ( y ) = 0 f_2(y)=0 f2(y)=0 分母是0,没有计算意义
  2. f 2 ( y ) > 0 f_2(y)>0 f2(y)>0 明显有 g 1 ( x ∣ y ) ≥ 0 g_1(x|y)\geq0 g1(xy)0
  3. if f 2 ( y ) > 0 f_2(y)>0 f2(y)>0
    ∫ − ∞ ∞ g 1 ( x ∣ y ) d x = ∫ − ∞ ∞ f ( x , y ) d x f 2 ( y ) = f 2 ( y ) f 2 ( y ) = 1 \int^{\infty}_{-\infty}g_1(x|y)dx=\frac{\int^{\infty}_{-\infty}f(x,y)dx}{f_2(y)}=\frac{f_2(y)}{f_2(y)}=1 g1(xy)dx=f2(y)f(x,y)dx=f2(y)f2(y)=1
    Q.E.D

定理为了确定我们一系列计算得到仍然是p.d.f,证明了三点性质(其实是2点),保证函数满足p.d.f.的基本需求。参考,p.d.f.的定义

继续上面关于工序的例子,我们来计算条件分布,当已知 Y = y Y=y Y=y 的时候我们知道 x ≥ y x\geq y xy所以计算边缘分布:
f 2 ( y ) = ∫ y ∞ e − x d x = e − y f_2(y)=\int^\infty_{y}e^{-x}dx=e^{-y} f2(y)=yexdx=ey
对于所有的 y > 0 y>0 y>0 :
g 1 ( x ∣ y ) = f ( x , y ) f 2 ( y ) = e − x e − y = e y − x ,  for  x ≥ y g_1(x|y)=\frac{f(x,y)}{f_2(y)}=\frac{e^{-x}}{e^{-y}}=e^{y-x},\text{ for }x\geq y g1(xy)=f2(y)f(x,y)=eyex=eyx, for xy
x < y x<y x<y 的时候 g 1 ( x ∣ y ) = 0 g_1(x|y)=0 g1(xy)=0

这个例子暂时告一段落,我们下面展示一张图来可视化一下连续随机变量的条件分布,因为离散情况下很容易想象,所以我们把连续的随机变量表示一下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jW78xfcO-1592531484512)(https://tony4ai-1251394096.cos.ap-hongkong.myqcloud.com/blog_images/Math-Probability-3-6-Conditional-Distributions-P1/p_d_f.png)]
看图说话,完整的曲面是二维随机变量的联合p.d.f. 那么其中一个切片 x = x 0 x=x_0 x=x0 或者 y = y 0 y=y_0 y=y0 都能得到一个切片,这个切片即使条件分布的一个伸缩,为什么是伸缩,因为其积分不是1,为了让他的积分为1,或者说正规化,我们需要给他一个系数: 1 f 1 ( x ) \frac{1}{f_1(x)} f1(x)1 或者 1 f 2 ( y ) \frac{1}{f_2(y)} f2(y)1 ,这样就能保证其积分为 ∫ − ∞ ∞ f ( x 0 , y ) f 1 ( x 0 ) = 1 \int^\infty_{-\infty} \frac{f(x_0,y)}{f_1(x_0)}=1 f1(x0)f(x0,y)=1 或者 ∫ − ∞ ∞ f ( x , y 0 ) f 2 ( y 0 ) = 1 \int^\infty_{-\infty} \frac{f(x,y_0)}{f_2(y_0)}=1 f2(y0)f(x,y0)=1

一点需要注意,我们说过,p.d.f和pf的区别在于,p.d.f.的单点对应的函数值没有意义,其区间内的积分才能反映区间的概率,那么上述式子中 f ( x 0 , y ) f(x_0,y) f(x0,y) 是0肯定没错了因为这个单变量函数没有体积,如果你还不明白,就看上面的图,并且确定二维随机变量只有一块区域内的体积才有意义,那么 x = x 0 x=x_0 x=x0 确定的平面,不管怎么算体积都是0,也就是对应的概率是0.
那么实际上严谨的连续条件分布的定义应该是这样的:
g 1 ( x ∣ y ) = l i m ϵ → 0 ∂ ∂ x P r ( X ≤ x ∣ y − ϵ < Y ≤ y + ϵ ) g_1(x|y)=lim_{\epsilon \to 0}\frac{\partial}{\partial x}Pr(X\leq x|y-\epsilon < Y \leq y+ \epsilon) g1(xy)=limϵ0xPr(Xxyϵ<Yy+ϵ)
是这样的一个极限,首先用到的是c.d.f.到p.d.f.的求偏导,然后是给了y一个小区间,使得积分有意义。

剩下的就是混合分布了,一个连续随机变量一个离散随机变量,做法也很简单,各算各的,互不干扰

Definition Conditional p.f. or p.d.f. from Mixed Distribution: Let X X X discrete and let Y Y Y be continuous with joint p.f./p.d.f. f.Then the conditional p.f. of X X X given Y = y Y=y Y=y is defined by Eq.(3.6.2) and the conditional p.d.f of Y Y Y given X = x X=x X=x is defined by Eq.(3.6.3)

上面说的3.6.2 就是离散条件分布定义中的计算公式,同样的3.6.3就是连续条件分布定义中的计算公式。

总结

本文较前几篇有点短小,但是介绍的东西确实重要很多,Part II 介绍条件概率分布的构成,欢迎大家继续收看。

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值