【个人学习笔记】概率论与数理统计知识梳理【三】


前言

翻了一下目录了,发现很多内容都没印象了,不知道是逃课没听还是老师没讲= =,浑浑噩噩的我…


一、二维随机变量

介绍二维随机变量前我们简单回顾一下随机变量的定义,本质上就是通过对样本空间进行一个满射操作得到的。那么,如果这个满射的规则不同,是不是就能得到不同的随机变量呢?答案是肯定的,通过第一个映射规则我们可以得到随机变量 X = X ( e ) X=X(e) X=X(e),第二个映射让我们得到 Y = Y ( e ) Y=Y(e) Y=Y(e),显然这两个随机变量都是与样本空间 S = e S={e} S=e有关系的,我们将他们拼接在一起成为一个二维的随机向量 ( X , Y ) (X,Y) (X,Y),就是我们所说的二维随机变量

虽然定义里规定了两个随机变量要定义在同一个样本空间,但其实不是也没有关系,你如果愿意你也可以把你抛硬币的随机变量与明天是否下雨的随机变量打包成一个二维随机变量,但是这样做一般没有什么意义。

我们之所以引入二维随机变量,是因为描述一个随机事件的发生,有时候不能只通过一个维度去观察,它体现出来的是综合的结果。例如你把一例沙子丢在一个坐标系中,它落到的坐标就是一个二维的随机变量。

好了,有了二维随机变量,下面自然就是要讨论它的分布、概率密度了,特别地,由于每个随机变量自身还有其分布,所以还多出了一个叫做边缘分布的东西。

定义:

二维随机变量的联合分布:
F ( x , y ) = P ( X ⩽ x ) ∩ ( Y ⩽ y ) = P ( X ⩽ x , Y ⩽ y ) F(x,y)=P{(X\leqslant x) \cap (Y\leqslant y)}=P(X\leqslant x,Y\leqslant y) F(x,y)=P(Xx)(Yy)=P(Xx,Yy)
二维连续型随机变量的联合概率密度:
F ( x , y ) = ∫ − ∞ y ∫ − ∞ x f ( u , v ) d u d v , f ( x , y ) F(x,y)=\int_{-\infty}^{y}\int_{-\infty}^xf(u,v)dudv,f(x,y) F(x,y)=yxf(u,v)dudv,f(x,y)非负可积,称 f ( x , y ) f(x,y) f(x,y) ( X , Y ) (X,Y) (X,Y)的联合概率密度

联合分布的定义只需要注意一点,就是分布函数的函数值是两个随机变量小于对应函数变量的积事件发生的概率。

联合概率密度的性质:

1.非负性
2.规范性: ∫ − ∞ ∞ ∫ − ∞ ∞ f ( x , y ) d x d y = 1 \int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1 f(x,y)dxdy=1
3.某块区域代表的随机事件发生的概率为该区域联合概率密度二重积分值:
P ( X , Y ) = ∬ Δ s f ( u , v ) d u d v , P(X,Y)=\iint_{\Delta s} f(u,v)dudv, P(X,Y)=Δsf(u,v)dudv,
4.若 f ( x , y ) f(x,y) f(x,y) ( x , y ) (x,y) (x,y)处连续,则有:
∂ 2 F ( x , y ) ) ∂ x ∂ y = f ( x , y ) \frac{\partial^2 F(x,y)) }{\partial x \partial y}=f(x,y) xy2F(x,y))=f(x,y)

非负性规范性都不用说了,只要是概率都必须满足的两条性质,概率密度也不例外。第
三条性质和一维随机变量一样去理解,只不过求面积变成了求体积,一维积分变成了二重积分罢了。感兴趣的可以去看看【个人学习笔记】概率论与数理统计【二】中的关于概率密度的解读。性质四直接对定义求二阶混合偏导就得到了。

看完了二维随机变量及其分布的定义,扩展到n维应该就很容易了,无非就是向量维度再增加,积分重数再增加了。

二、边缘分布

( X , Y ) (X,Y) (X,Y)虽然打包成了二维随机变量,但是不能改变它们自身是随机变量,有各自的分布的事实,只不过这时候它们各自的分布取了一个名字——边缘分布

那么除了直接去分析 X X X的分布以为,可以通过我们知道的联合分布来得到边缘分布吗?答案是肯定的。我们知道联合分布两个随机变量 X 、 Y X、Y XY同时小于 x , y x,y x,y的概率,那么如果我让 Y Y Y恒小于 y y y的话,联合分布是不是就退化成 X X X自己的边缘分布了,这也很容易做到,让 y y y ∞ \infty 就行了。于是就有:

F X ( x ) = P ( X ⩽ x ) = P ( X ⩽ x , Y ⩽ ∞ ) = F ( x , ∞ ) = ∫ − ∞ x [ ∫ − ∞ ∞ f ( x , y ) d y ] d x F_X(x)=P(X\leqslant x)=P(X\leqslant x,Y\leqslant \infty)=F(x,\infty)=\int_{-\infty}^{x}[\int_{-\infty}^{\infty}f(x,y)dy]dx FX(x)=P(Xx)=P(Xx,Y)=F(x,)=x[f(x,y)dy]dx
显然 ∫ − ∞ ∞ f ( x , y ) d y \int_{-\infty}^{\infty}f(x,y)dy f(x,y)dy是非负可积的,由概率密度的定义可得:
f X ( x ) = ∫ − ∞ ∞ f ( x , y ) d y f_X(x)=\int_{-\infty}^{\infty}f(x,y)dy fX(x)=f(x,y)dy

引入了连续型随机变量及其分布以后我就没有特别取讲离散随机变量,但是这些定义除了概率密度(连续型的才有)都是一样的,很容易想明白,就懒得码字了Orz。

通过边缘分布可以定义二维正态分布,如果一个二维随机变量的边缘分布均为正态分布,则称该随机变量服从二维正态分布。具体的性质将在下一章进行深入探讨。

三、条件分布

之前说过,条件概率也是概率,满足概率的两条定义。那么自然而然地想到,条件概率也有自己的分布函数,离散的分布律都很简单,就是一一列举出来或者用式子表示出来,不打算去讲了,给个定义作为提醒:

P ( X = X i ∣ Y = y i ) = P ( X = X i , Y = y i ) P ( Y = y i ) P(X=X_i\mid Y=y_i)=\frac{P(X=X_i ,Y=y_i)}{P(Y=y_i)} P(X=XiY=yi)=P(Y=yi)P(X=Xi,Y=yi)
称为 Y = y i Y=y_i Y=yi条件下X的条件分布律

下面来看看连续型随机变量的条件分布,同样先给出完整定义:

设二维随机变量 ( X , Y ) (X,Y) (X,Y)的概率密度为 f ( x , y ) f(x,y) f(x,y),Y的边缘概率密度为 f Y ( y ) f_Y(y) fY(y),若对于固定的 y y y, f Y ( y ) > 0 f_Y(y)>0 fY(y)>0,则称 f ( x , y ) f Y ( y ) \frac{f(x,y)}{f_Y(y)} fY(y)f(x,y) Y = y Y=y Y=y条件下X的条件概率密度,记为:
f X ∣ Y ( x , y ) = f ( x , y ) f Y ( y ) f_{X\mid Y}(x,y)=\frac{f(x,y)}{f_Y(y)} fXY(x,y)=fY(y)f(x,y)

它的条件概率分布函数就是对x取变上限积分即可,别忘了检查一下,非负可积。这个定义也是很好去验证的,我们只需要去求在 ( x , y ) (x,y) (x,y)的邻域 U ( x , y ) = { ( x , y ) ∣ x ∈ ( x − δ , x + δ ) , y ∈ ( y − δ , y + δ ) } U(x,y)=\left \{(x,y)\mid x\in (x-\delta,x+\delta),y\in (y-\delta,y+\delta)\right \} U(x,y)={(x,y)x(xδ,x+δ),y(yδ,y+δ)}的概率就行了。

P ( X ∈ U ( x ) ) = f ( x , y ) f Y ( y ) Δ x = f ( x , y ) Δ x Δ y f Y ( y ) Δ y = P ( X ∈ U ( x ) , Y ∈ U ( y ) ) P ( Y ∈ U ( y ) = P ( X ∈ U ( x ) ∣ Y ∈ U ( y ) ) P(X\in U(x))=\frac{f(x,y)}{f_Y(y)}\Delta x=\frac{f(x,y)\Delta x\Delta y}{f_Y(y)\Delta y}=\frac{P(X\in U(x),Y\in U(y))}{P(Y\in U(y)}=P(X\in U(x)\mid Y\in U(y)) P(XU(x))=fY(y)f(x,y)Δx=fY(y)Δyf(x,y)ΔxΔy=P(YU(y)P(XU(x),YU(y))=P(XU(x)YU(y))

这里一直用邻域来解释是为了易于形象地去理解,因为邻域半径 δ \delta δ可以取无穷小量,用邻域去表达** P ( Y = y ) P(Y=y) P(Y=y)**这一条件会更好解释些,因为连续型随机变量等于某个值的概率被认为是0)

也就是说,这个通过这个条件概率密度函数去求x的邻域的概率得到的确实是Y取y的邻域的条件下X在x邻域内的概率。那么如果对这个概率密度在某个区间上积分,得到的就是Y取y的邻域的条件下,X属于该区间的概率。完美契合了我们对条件概率密度的需求:求Y取某个值的情况下,x在某个区间上的概率。

四、相互独立的随机变量

我们之前讲过独立相互独立的随机事件,现在说的是随机变量,怎么从独立的随机事件到随机变量呢?
感性认知:
我们知道随机变量是变化的,它可以取到任意区间,也就是它可以表示出任意事件。那么如果两个随机变量,它们在任意区间上表示的积事件的概率等于各自事件发生概率的乘积,即 P ( X ∈ A ( x ) , Y ∈ B ( y ) ) = P ( X ∈ A ( x ) , Y ∈ B ( y ) ) P(X\in A(x),Y\in B(y))=P(X\in A(x),Y\in B(y)) P(XA(x),YB(y))=P(XA(x),YB(y)),其中 A 、 B A、B AB均表示集合那是不是就对应上了随机事件的独立性了。我们思考到这,看看书上是怎么定义随机变量的独立性的。
**定义:**若有 F ( x , y ) = F X ( x ) F Y ( y ) F(x,y)=F_X(x)F_Y(y) F(x,y)=FX(x)FY(y),则称随机变量 X , Y X,Y X,Y互相独立,若X、Y为连续型随机变量,则有 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)等价条件。

下面我们来证明一下感性认识是不是和定义是等价的,如果是,说明我们这种理解方式是正确的。
首先验证一下从感性认知能否推出定义:

只需要取 A ( x ) = ( − ∞ , x ) , B ( y ) A(x)=(-\infty,x),B(y) A(x)=(,x),B(y) ( − ∞ , y ) (-\infty,y) (,y),即可显然看出定义的要求是满足的。

再看看能否由定义推出感性认知:
离散情况:
只需证明对于任意的 x , y x,y x,y,都有 P ( X = x , Y = y ) = P ( X = x ) P ( Y = y ) P(X=x,Y=y)=P(X=x)P(Y=y) P(X=x,Y=y)=P(X=x)P(Y=y)成立即可

证明:当P(X=x),P(Y=y)其中一个为0时候显然成立,现在讨论它们都不为0的情况。
X 、 Y X、Y XY从小到大排列为 x 1 、 x 2 . . . y 1 、 y 2 x_1、x_2...y_1、y_2 x1x2...y1y2…等
X = x 1 , Y = y 1 X=x_1,Y=y_1 X=x1,Y=y1时,有 P ( X ⩽ x 1 , Y ⩽ y 1 ) = P ( X = x 1 , Y = y 1 ) = P ( X = x 1 ) P ( Y = y 1 ) P(X\leqslant x_1,Y\leqslant y_1)=P(X=x_1,Y=y_1)=P(X=x_1)P(Y=y_1) P(Xx1,Yy1)=P(X=x1,Y=y1)=P(X=x1)P(Y=y1)
X = x 1 , Y = y 2 X=x_1,Y=y_2 X=x1,Y=y2时,有 P ( X = x 1 , Y = y 1 ∪ Y = y 2 ) = P ( X = x 1 ) P ( Y = y 1 ) + P ( X = x 1 , Y = y 2 ) = P ( X = x 1 ) P ( Y ⩽ y 2 ) = P ( X = x 1 ) P ( Y = y 1 ) + P ( X = x 1 ) P ( Y = y 2 ) P(X=x_1,Y=y_1\cup Y=y_2)=P(X=x_1)P(Y=y_1)+P(X=x_1,Y=y_2)=P(X=x_1)P(Y\leqslant y_2)=P(X=x_1)P(Y=y_1)+P(X=x_1)P(Y=y_2) P(X=x1,Y=y1Y=y2)=P(X=x1)P(Y=y1)+P(X=x1,Y=y2)=P(X=x1)P(Yy2)=P(X=x1)P(Y=y1)+P(X=x1)P(Y=y2)
所以 P ( X = x 1 , Y = y 2 ) = P ( X = x 1 ) P ( Y = y 2 ) P(X=x_1,Y=y_2)=P(X=x_1)P(Y=y_2) P(X=x1,Y=y2)=P(X=x1)P(Y=y2)
继续归纳下去,任意的 x i , y i x_i,y_i xi,yi均会满足 P ( X = x i , Y = y i ) = P ( X = x i ) P ( Y = y i ) P(X=x_i,Y=y_i)=P(X=x_i)P(Y=y_i) P(X=xi,Y=yi)=P(X=xi)P(Y=yi)
证毕

连续情况
只需证明对于任意的区间 U ( x ) 、 U ( y ) U(x)、U(y) U(x)U(y),有 P ( X ∈ U ( x ) , Y ∈ U ( y ) ) = P ( X ∈ U ( x ) ) P ( Y ∈ U ( y ) ) P(X\in U(x),Y\in U(y))=P(X\in U(x))P(Y\in U(y)) P(XU(x),YU(y))=P(XU(x))P(YU(y))成立即可

证明:
将定义展开成为概率密度的积分可以得到 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)
则由联合概率密度的积分值为概率的特性有 P ( X ∈ U ( x ) , Y ∈ U ( y ) ) = f ( x , y ) d s = f ( x , y ) d x d y = f X ( x ) d x f Y ( y ) d y = P ( X ∈ U ( x ) ) P ( Y ∈ U ( y ) ) P(X\in U(x),Y\in U(y))=f(x,y)ds=f(x,y)dxdy=f_X(x)dxf_Y(y)dy=P(X\in U(x))P(Y\in U(y)) P(XU(x),YU(y))=f(x,y)ds=f(x,y)dxdy=fX(x)dxfY(y)dy=P(XU(x))P(YU(y))
证毕

看来给出的随机变量独立性的定义和我们由随机事件的独立性推导而来的定义的完全一致的。那么为什么不用我们感性认知的那种定义方式呢?似乎它还更容易理解。我想答案并不难找到,当然是为了方便以后直接通过分布函数、概率密度函数来利用独立性的性质了。

五、两个随机变量的函数的分布

要求两个随机变量的函数分布,还是得回到最初的随机变量的分布函数与概率的联系上,不管是求什么样的函数分布,都要从这一点上来考虑,下面通过一个例子来说明这一点。
Z=X+Y的函数分布:
从概率与分布函数的联系出发,并将 Z Z Z进行变量替换,要明确一点,它们之间的函数关系是随机变量之间的关系,所以代换的一定是大写的随机变量

F Z ( z ) = P ( Z ⩽ z ) = P ( X + Y ⩽ z ) F_Z(z)=P(Z\leqslant z)=P(X+Y\leqslant z) FZ(z)=P(Zz)=P(X+Yz)
根据二维随机变量通过概率密度在某区域内求积分就是对应概率的性质有:
原式 = ∬ x + y ⩽ z f ( x , y ) d x d y = ∫ − ∞ ∞ d x ∫ − ∞ z − x f ( x , y ) d y =\iint_{x+y\leqslant z}f(x,y)dxdy=\int_{-\infty}^{\infty}dx\int_{-\infty}^{z-x}f(x,y)dy =x+yzf(x,y)dxdy=dxzxf(x,y)dy
令y=u-x
∫ − ∞ ∞ d x ∫ − ∞ z f ( x , u − x ) d u \int_{-\infty}^{\infty}dx\int_{-\infty}^{z}f(x,u-x)du dxzf(x,ux)du
对其进行对z求导得:
f Z ( z ) = f X + Y ( x , y ) = ∫ − ∞ ∞ f ( x , z − x ) d x = ∫ − ∞ ∞ f ( z − y , y ) d y f_Z(z)=f_{X+Y}(x,y)=\int_{-\infty}^{\infty}f(x,z-x)dx=\int_{-\infty}^{\infty}f(z-y,y)dy fZ(z)=fX+Y(x,y)=f(x,zx)dx=f(zy,y)dy

然后根据 f ( x , y ) f(x,y) f(x,y)具有的一些性质则可以进一步进行推导,例如 X 、 Y X、Y XY如果互相独立的话,则有 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y),将其带入有:

原式 = ∫ − ∞ ∞ f X ( x ) f Y ( z − x ) d x = ∫ − ∞ ∞ f X ( z − y ) f Y ( y ) d y =\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)dx=\int_{-\infty}^{\infty}f_X(z-y)f_Y(y)dy =fX(x)fY(zx)dx=fX(zy)fY(y)dy

这里要记住区分,x、y只是记号,将其分开的时候,根据的是 f ( p o s 1 , p o s 2 ) = f 1 ( p o s 1 ) f 2 ( p o s 2 ) f(pos_1,pos_2)=f_1(pos1)f_2(pos_2) f(pos1,pos2)=f1(pos1)f2(pos2),这与position里的就是 x x x y y y还是 d o g dog dog都没关系。也就是说 f X ( y ) f_X(y) fX(y)是随机变量X的概率密度函数,不要被表像所迷惑。

此外,这个形式的积分运算其实叫做 f X ( x ) 、 f Y ( y ) f_X(x)、f_Y(y) fX(x)fY(y)的卷积。它的运算过程也很直观,自变量 z z z的函数值就是所有和为 z z z x 、 y x、y xy对的函数值相乘的和。从定义上就可以看出 x 、 y x、y xy具有相同的地位,也就是具有轮换对称性,所有卷积运算自然就满足交换律,从而有结合律分配律。这在信号与系统中有许多的应用,感兴趣地可以去查询相关资料。

总结

在证明感性认知的时候,一开始就是想找到离散连续统一地证明方法,但是却发现怎么也证不出来。只靠分布函数定义的性质,而不去利用离散连续各自特殊性带来的性质,证明起来举步维艰,如果有读者想到了统一进行证明的好办法,一定要来教我噢!2020.9.26

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值