【概率论】3-9:多随机变量函数(Functions of Two or More Random Variables)

原文地址1:https://www.face2ai.com/Math-Probability-3-9-Functions-of-Two-or-More-Random-Variables转载请标明出处

Abstract: 本文介绍多随机变量的函数
Keywords: 离散多随机变量的函数,连续多随机变量的函数,卷积

多随机变量函数

任何一个领域的顶级人才都是需要很久的基础知识积累的,所以根据自己的定位可以适当的补充自己的基础知识:

  1. 如果你想进入机器学习这个行业,了解基础技术更重要,你需要会使用python,各种工具包,TensorFlow等基础工具
  2. 如果你想在机器学习这个行业稳定的输出而不是撞大运式的调参,你需要了解下网络结构,基础算法,并且你需要非常多的经验去调参。
  3. 如果你想成为机器学习的研究者,很遗憾的告诉你,你有一大堆数学要学而且真的不是一两年能学完的,所以还没有毕业的铜须有志于进入研究行列的,大家请多学习数学。

以上为个人理解,每一个等级难度都会提升,但是不保证收入和难度完全成正比。

上文书我们讲到单个随机变量的函数变换,本文我们只进行简单变换,因为我们从试验结果到事件进行了一次映射,事件到随机变量又是一次映射,如果从随机变量再到另一个随机变量还是一个映射,这个过程可能都不是一对一的,所以这个过程是对原始信息的总结和提取,提取对我们有用的信息的方法。通过总结归纳出一个或者多个结构化的函数,可以反映信息的容积。

有离散联合分布的多随机变量 Random Variables with a Discrete Joint Distribution

Theorem Functions of Discrete Random Variables. Suppose that n n n random varibales X 1 , … , X n X_1,\dots ,X_n X1,,Xn have a discrete joint distribution for which the joint p.f. is f f f and that m m m functions Y 1 , … , Y m Y_1,\dots ,Y_m Y1,,Ym of these n n n random variables are defined as follows:
Y 1 = r 1 ( X 1 , … , X n ) , Y 2 = r 2 ( X 1 , … , X n ) , ⋮ Y m = r m ( X 1 , … , X n ) Y_1=r_1(X_1,\dots,X_n),\\ Y_2=r_2(X_1,\dots,X_n),\\ \vdots\\ Y_m=r_m(X_1,\dots,X_n) Y1=r1(X1,,Xn),Y2=r2(X1,,Xn),Ym=rm(X1,,Xn)
For given values y 1 , … , y m y_1,\dots,y_m y1,,ym fo the m m m random variables Y 1 , … , Y m Y_1,\dots,Y_m Y1,,Ym let A A A denote the set of all points ( x 1 , … , x n ) (x_1,\dots,x_n) (x1,,xn) such that:
r 1 ( x 1 , … , x n ) = y 1 r 2 ( x 1 , … , x n ) = y 2 ⋮ r m ( x 1 , … , x n ) = y m r_1(x_1,\dots,x_n)=y_1\\ r_2(x_1,\dots,x_n)=y_2\\ \vdots\\ r_m(x_1,\dots,x_n)=y_m\\ r1(x1,,xn)=y1r2(x1,,xn)=y2rm(x1,,xn)=ym
Then the value of the joint p.f. g g g of Y 1 , … , Y m Y_1,\dots,Y_m Y1,,Ym is specified at the point ( y 1 , … , y m ) (y_1,\dots,y_m) (y1,,ym) by the relation
g ( y 1 , … , y m ) = ∑ ( x 1 , … , x n ) ∈ A f ( x 1 , … , x n ) g(y_1,\dots,y_m)=\sum_{(x_1,\dots,x_n)\in A}f(x_1,\dots,x_n) g(y1,,ym)=(x1,,xn)Af(x1,,xn)

和单变量函数的套路基本一致,最后的公式是最关键的逻辑核心,也就是 ( x 1 , … , x n ) ∈ A (x_1,\dots,x_n)\in A (x1,,xn)A 是解决问题的关键,换句话说,多变量也好,单变量也好,最后我们要做的都是一个逆向的求解,或者叫做穷举的方法,因为我们并没计算公式能够得到全部的向量 x ⃗ = ( x 1 , … , x n ) \vec{x}=(x_1,\dots,x_n) x =(x1,,xn) 保证其满足 x ⃗ ∈ A \vec{x}\in A x A 所以 g g g f f f 的关系也就是这么确定的,找到所有f的输入 x ⃗ \vec{x} x 使其满足 y 0 ⃗ \vec{y_0} y0 的需求,求的所有满足条件的概率和。
这部分和单离散随机变量完全一致,只是随机变量变成了随机变量向量了。

下面的定理关于二项分布和伯努利分布:

Theorem Binomial and Bernoulli Distributions. Assume that X 1 , … , X n X_1,\dots,X_n X1,,Xn are i.i.d. random variables having the Bernoulli distribution with parameter p p p .Let Y = X 1 + … X n Y=X_1+\dots X_n Y=X1+Xn . Then Y Y Y has the binomial distribution with parameters n n n and p p p

当随即向量 x ⃗ = ( x 1 , … , x n ) \vec{x}=(x_1,\dots,x_n) x =(x1,,xn) 是独立同伯努利分布的随机变量的时候,且其概率为 p p p ,其函数 Y = f ( x 1 , … , x n ) Y=f(x_1,\dots,x_n) Y=f(x1,,xn) 的分布是二项分布 参数是 n n n p p p

证明:

  1. 可以明确的是,当 y = x 1 + ⋯ + x n y=x_1+\dots+x_n y=x1++xn 时, y y y 的值在 [ 0 , n ] [0,n] [0,n] 之间
  2. m ∈ [ 0 , n ] m\in [0,n] m[0,n] 那么,根据加法和伯努利分布的性质,其中m个随机变量为1,另外n-m个随机变量为0: P r ( Y = m ) = ( n m ) p m ( 1 − p ) n − m Pr(Y=m)=\begin{pmatrix}n\\m\end{pmatrix}p^{m}(1-p)^{n-m} Pr(Y=m)=(nm)pm(1p)nm
  3. 很显然,Y的分布是二项分布。
  4. Q.E.D

有连续联合分布的多随机变量 Random Variables with a Continuous Joint Distribution

先来个🌰,不然全文没有例子有点不像概率论学习该有的样子,顺便补充一句,博客只能是总结精华部分,如果想和熟练的掌握,需要去做大量的练习,也就是我们这里的例子也好课后习题也好,反正要练习。
排队的🌰 :
假设队伍里面的前两个客户计划同时离开, X i X_i Xi 表示第 i i i 为客户用的时间 i = 1 , 2 i=1,2 i=1,2 假设 X 1 X_1 X1 X 2 X_2 X2 是独立的随机变量,并有相同的分布: f ( x ) = 2 e − 2 x f(x)=2e^{-2x} f(x)=2e2x 其中 x > 0 x>0 x>0 因为两个客户想同时离开(也就是先完成的人要等待没完成的人),所以我们感兴趣的是他们用的总时间: Y = X 1 + X 2 Y=X_1+X_2 Y=X1+X2 所以 Y Y Y 的p.d.f. 是我们要求的:

for each  y ,let  A y = ( x 1 , x 2 ) : x 1 + x 2 ≤ y \text{for each } y\text{,let }\\ A_y={(x_1,x_2):x_1+x_2\leq y}\\ for each y,let Ay=(x1,x2):x1+x2y
那么当 Y ≤ y Y\leq y Yy 当且仅当 ( X 1 , X 2 ) ∈ A y (X_1,X_2)\in A_y (X1,X2)Ay 集合 A y A_y Ay 如图所示

如果我们让 G ( y ) G(y) G(y) 来定义 Y Y Y 的 c.d.f. 那么对于 y > 0 y>0 y>0 我们有:
G ( y ) = P r ( ( X 1 , X 2 ) ∈ A y ) = ∫ 0 y ∫ 0 y − x 2 4 e − 2 x 1 − 2 x 2 d x 1 d x 2 = ∫ 0 y 2 e − 2 x 2 [ 1 − e − 2 ( y − x 2 ) ] d x 2 = ∫ 0 y [ 2 e − 2 x 2 − 2 e − 2 y ] d x 2 = 1 − e − 2 y − 2 y e − 2 y G(y)=Pr((X_1,X_2)\in A_y)=\int^{y}_{0}\int^{y-x_2}_{0}4e^{-2x_1-2x_2}dx_1dx_2\\ =\int^{y}_{0}2e^{-2x_2}[1-e^{-2(y-x_2)}]dx_2=\int^{y}_{0}[2e^{-2x_2-2e^{-2y}}]dx_2\\ =1-e^{-2y}-2ye^{-2y} G(y)=Pr((X1,X2)Ay)=0y0yx24e2x12x2dx1dx2=0y2e2x2[1e2(yx2)]dx2=0y[2e2x22e2y]dx2=1e2y2ye2y

上面这个例子用到的主要数学技巧是微积分,多元微积分,而得到积分表达式却用到了概率的知识,配合示意图,这个例子变得很清晰,但是其原理还是值得我们研究的。

Theorem Brute-Force Distribution of a Function.Suppose that the joint p.d.f. of X ⃗ = ( X 1 , … X n ) \vec{X}=(X_1,\dots X_n) X =(X1,Xn) is f ( x ⃗ ) f(\vec{x}) f(x ) and that Y = r ( X ⃗ ) Y=r(\vec{X}) Y=r(X ) For each real number y y y ,define A y = { x : r ( x ) ≤ y } A_y=\{x:r(x)\leq y\} Ay={x:r(x)y} ,Then the c.d.f. G(y) of Y is:
G ( y ) = ∫  ⁣ ⋯ ∫ ⏟ A y f ( x ) d x G(y)=\underbrace{\int\dots \int}_{A_y} f(x)dx G(y)=Ay f(x)dx

这是个简单暴力的方法来确定一个连续多随机变量分布,和多离散随机变量相似,都是把满足条件的所有的积分(求和)重新得到新变量的 c.d.f ,其证明也很容易:
proof:
G ( y ) = P r ( Y ≤ y ) = P r [ r ( X ⃗ ) ≤ y ] = P r ( X ⃗ ∈ A y ) G(y)=Pr(Y\leq y)=Pr[r(\vec{X})\leq y]=Pr(\vec{X}\in A_y) G(y)=Pr(Yy)=Pr[r(X )y]=Pr(X Ay)

上面的方法适合于变量较少,而且分布比较简单的情况下,当情况复杂了,这种方法将会非常酷男,困得部分也是确定积分范围的部分,也就是说我们基本没什么办法直接得到 X ⃗ \vec{X} X 使其满足 r ( X ⃗ ) ≤ y r(\vec{X})\leq y r(X )y ,这个问题将成为一个大问题,如果 r r r 是可逆的,这个就好办,但是如果r是个多对一的不可逆函数,情况就变得复杂了。
当然我们还是可以研究最简单的情况 —— 线性情况

Theorem Linear Function of Two Random Varibales Let X 1 X_1 X1 and X 2 X_2 X2 have joint p.d.f. f ( x 1 , x 2 ) f(x_1,x_2) f(x1,x2) and let Y = a 1 X 1 + a 2 X 2 + b Y=a_1X_1+a_2X_2+b Y=a1X1+a2X2+b with a 1 ≠ 0 a_1\neq 0 a1=0 The Y Y Y has a continuous distribution whose p.d.f. is
g ( y ) = ∫ − ∞ ∞ f ( y − b − a 2 x 2 a 1 , x 2 ) 1 ∣ a 1 ∣ d x 2 g(y)=\int^{\infty}_{-\infty}f(\frac{y-b-a_2x_2}{a_1},x_2)\frac{1}{|a_1|}dx_2 g(y)=f(a1yba2x2,x2)a11dx2

上面的公理给出了线性双连续变量的分布公式,我们来证明一下:

  1. 首先我们发现 Y的 c.d.f. G的导数是g,也就是上面定理中的g

  2. 对于每一个y,定义 A y = ( x 1 , x 2 ) : a 1 x 1 + a 2 x 2 + b ≤ y A_y={(x_1,x_2):a_1x_1+a_2x_2+b\leq y} Ay=(x1,x2):a1x1+a2x2+by

  3. A y A_y Ay 和上面的图(本文就一张图,没错,就是上面例子的那张图) 的情况类似

  4. 写出积分限,外部积分到 x 2 x_2 x2 里层积分是 x 1 x_1 x1 ,然后就有:
    G ( y ) = ∫ A y ∫ f ( x 1 , x 2 ) d x 1 d x 2 = ∫ − ∞ ∞ ∫ − ∞ ( y − b − a 2 x 2 ) a 1 f ( x 1 , x 2 ) d x 1 d x 2 G(y)=\int_{A_y}\int f(x_1,x_2)dx_1dx_2=\int^{\infty}_{-\infty}\int^{\frac{(y-b-a_2x_2)}{a_1}}_{-\infty}f(x_1,x_2)dx_1dx_2 G(y)=Ayf(x1,x2)dx1dx2=a1(yba2x2)f(x1,x2)dx1dx2

  5. 上面内层积分限有点小复杂,因为y是我们关心的变量,放在内层处理起来会麻烦,所以把他挪到外层。方法就是换元, z = a 1 x 1 + a 2 x 2 + b z=a_1x_1+a_2x_2+b z=a1x1+a2x2+b ,那么 x 1 = z − a 2 x 2 − b a 1 x_1=\frac{z-a_2x_2-b}{a_1} x1=a1za2x2b 那么就有 d x 1 = d z 1 / a 1 dx_1=dz_1/a_1 dx1=dz1/a1 于是内层积分就变成了下面这个式子:
    ∫ − ∞ y f ( z − b − a 2 x 2 a 1 , x 2 ) 1 a 1 d z \int^{y}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)\frac{1}{a_1}dz yf(a1zba2x2,x2)a11dz

  6. 然后我们使用积分的性质做下面的计算:
    G ( y ) = ∫ − ∞ ∞ ∫ − ∞ y f ( z − b − a 2 x 2 a − 1 , x 2 ) 1 a 1 d z d x 2 = ∫ − ∞ y ∫ − ∞ ∞ f ( z − b − a 2 x 2 a 1 , x 2 ) d x 2 d z G(y)=\int^{\infty}_{-\infty}\int^{y}_{-\infty}f(\frac{z-b-a_2x_2}{a-1},x_2)\frac{1}{a_1}dzdx_2\\ =\int^{y}_{-\infty}\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2dz G(y)=yf(a1zba2x2x2)a11dzdx2=yf(a1zba2x2,x2)dx2dz

  7. 我们可以让内层积分成为一个函数 t ( z ) = ∫ − ∞ ∞ f ( z − b − a 2 x 2 a 1 , x 2 ) d x 2 t(z)=\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2 t(z)=f(a1zba2x2,x2)dx2 ,然后我们就能得到 G ( y ) = ∫ − ∞ y g ( z ) d z G(y)=\int^{y}_{-\infty}g(z)dz G(y)=yg(z)dz 根据微积分基本定理II 其求导等于t(z) ,而 t z t{z} tz 就是我们上面定理中的 g ( y ) g(y) g(y)

  8. Q.E.D

精彩的部分在换元,通过换元来得到了我们的目标函数,这个应该算是微积分技巧,跟概率原理没太大关系,但是可以看出,微积分基础是多么重要啊。

然而这个定理你以为就完了?还没有,有更劲爆的还在后面。
∫ − ∞ y ∫ − ∞ ∞ f ( z − b − a 2 x 2 a 1 , x 2 ) d x 2 d z \int^{y}_{-\infty}\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2dz yf(a1zba2x2,x2)dx2dz 中, a 1 = a 2 = 1 a_1=a_2=1 a1=a2=1 并且 b = 0 b=0 b=0 的时候,这个式子改名叫卷积,没错卷积,神经网络来的同学激动不?看了这么久了,终于慢慢的靠上边了。

Definition Convolution.Let X i X_i Xi be independent continuous random variables and let Y = X 1 + X 2 Y=X_1+X_2 Y=X1+X2 The distribution of Y Y Y is called the convolution of the distributions of X 1 X_1 X1 and X 2 X_2 X2 .The p.d.f. of Y Y Y is sometimes called convolution of the p.d.f.'s of X 1 X_1 X1 and X 2 X_2 X2.

如果我们把 X i X_i Xi 的p.d.f. 写成 f i f_i fi 其中 i = 1 , 2 i=1,2 i=1,2 的话那么 Y = X 1 + X 2 Y=X_1+X_2 Y=X1+X2 的 p.d.f.是:
g ( y ) = ∫ − ∞ ∞ f 1 ( y − t ) f 2 ( t ) d t g(y)=\int^{\infty}_{-\infty}f_1(y-t)f_2(t)dt g(y)=f1(yt)f2(t)dt
其中t是个哑变量,或者叫做临时变量。
同理,交换 X 1 X_1 X1 X 2 X_2 X2 能得到:
g ( y ) = ∫ − ∞ ∞ f 1 ( t ) f 2 ( y − t ) d t g(y)=\int^{\infty}_{-\infty}f_1(t)f_2(y-t)dt g(y)=f1(t)f2(yt)dt

怎么样,像卷积了吧,不过不要忘了这是双连续随机变量的线性函数变换后的pd.f.的关系!这句话有点复杂?那就好好多读几遍。
本想举个🌰就结束,结果发现这几个🌰是连续的,所以这里就不再多写了,大家可以参考’Probability and Statistics 4th’中的例子,都非常精彩

总结

本文扩展上文介绍了多随机变量的函数,从离散到连续,遵循和单变量类似的法则,但是用处却大大扩展了,下一篇开始就要进入第四章了,我们一起加油。。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
概率论中的二维随机变量是指由两个随机变量组成的一种数学模型。它可以用来描述两个不同事件之间的关系和相互影响。 以下是一些与二维随机变量相关的重要知识点: 1. 概率密度函数(PDF):对于连续型二维随机变量,概率密度函数描述了其取值的概率分布情况。它可以通过对二维随机变量进行积分来计算概率。 2. 边缘分布:边缘分布指的是二维随机变量中每个单独变量的概率分布。通过边缘分布,可以计算某一个变量的概率,而忽略其他变量的取值情况。 3. 条件分布:条件分布指的是在给定另一个变量取值的条件下,某一个变量的概率分布。条件分布可以用来描述两个变量之间的依赖关系和相互影响。 4. 相关性和独立性:二维随机变量的相关性描述了两个变量之间的线性关系程度,可以通过协方差或相关系数来衡量。如果两个变量相互独立,则它们之间没有任何线性关系。 5. 边缘期望和协方差:边缘期望是指每个变量的期望值,可以用来描述随机变量的平均取值情况。协方差衡量了两个变量之间的总体线性关系,可以通过协方差矩阵来表示。 6. 线性变换和线性组合:对二维随机变量进行线性变换或线性组合可以得到新的随机变量。这些新的变量可能具有特定的概率分布和相关性。 这些是概率论中关于二维随机变量的一些重要知识点,希望能对你有所帮助。如果你还有其他问题,请继续提问。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值