原文地址1:https://www.face2ai.com/Math-Probability-3-9-Functions-of-Two-or-More-Random-Variables转载请标明出处
Abstract: 本文介绍多随机变量的函数
Keywords: 离散多随机变量的函数,连续多随机变量的函数,卷积
多随机变量函数
任何一个领域的顶级人才都是需要很久的基础知识积累的,所以根据自己的定位可以适当的补充自己的基础知识:
- 如果你想进入机器学习这个行业,了解基础技术更重要,你需要会使用python,各种工具包,TensorFlow等基础工具
- 如果你想在机器学习这个行业稳定的输出而不是撞大运式的调参,你需要了解下网络结构,基础算法,并且你需要非常多的经验去调参。
- 如果你想成为机器学习的研究者,很遗憾的告诉你,你有一大堆数学要学而且真的不是一两年能学完的,所以还没有毕业的铜须有志于进入研究行列的,大家请多学习数学。
以上为个人理解,每一个等级难度都会提升,但是不保证收入和难度完全成正比。
上文书我们讲到单个随机变量的函数变换,本文我们只进行简单变换,因为我们从试验结果到事件进行了一次映射,事件到随机变量又是一次映射,如果从随机变量再到另一个随机变量还是一个映射,这个过程可能都不是一对一的,所以这个过程是对原始信息的总结和提取,提取对我们有用的信息的方法。通过总结归纳出一个或者多个结构化的函数,可以反映信息的容积。
有离散联合分布的多随机变量 Random Variables with a Discrete Joint Distribution
Theorem Functions of Discrete Random Variables. Suppose that n n n random varibales X 1 , … , X n X_1,\dots ,X_n X1,…,Xn have a discrete joint distribution for which the joint p.f. is f f f and that m m m functions Y 1 , … , Y m Y_1,\dots ,Y_m Y1,…,Ym of these n n n random variables are defined as follows:
Y 1 = r 1 ( X 1 , … , X n ) , Y 2 = r 2 ( X 1 , … , X n ) , ⋮ Y m = r m ( X 1 , … , X n ) Y_1=r_1(X_1,\dots,X_n),\\ Y_2=r_2(X_1,\dots,X_n),\\ \vdots\\ Y_m=r_m(X_1,\dots,X_n) Y1=r1(X1,…,Xn),Y2=r2(X1,…,Xn),⋮Ym=rm(X1,…,Xn)
For given values y 1 , … , y m y_1,\dots,y_m y1,…,ym fo the m m m random variables Y 1 , … , Y m Y_1,\dots,Y_m Y1,…,Ym let A A A denote the set of all points ( x 1 , … , x n ) (x_1,\dots,x_n) (x1,…,xn) such that:
r 1 ( x 1 , … , x n ) = y 1 r 2 ( x 1 , … , x n ) = y 2 ⋮ r m ( x 1 , … , x n ) = y m r_1(x_1,\dots,x_n)=y_1\\ r_2(x_1,\dots,x_n)=y_2\\ \vdots\\ r_m(x_1,\dots,x_n)=y_m\\ r1(x1,…,xn)=y1r2(x1,…,xn)=y2⋮rm(x1,…,xn)=ym
Then the value of the joint p.f. g g g of Y 1 , … , Y m Y_1,\dots,Y_m Y1,…,Ym is specified at the point ( y 1 , … , y m ) (y_1,\dots,y_m) (y1,…,ym) by the relation
g ( y 1 , … , y m ) = ∑ ( x 1 , … , x n ) ∈ A f ( x 1 , … , x n ) g(y_1,\dots,y_m)=\sum_{(x_1,\dots,x_n)\in A}f(x_1,\dots,x_n) g(y1,…,ym)=(x1,…,xn)∈A∑f(x1,…,xn)
和单变量函数的套路基本一致,最后的公式是最关键的逻辑核心,也就是
(
x
1
,
…
,
x
n
)
∈
A
(x_1,\dots,x_n)\in A
(x1,…,xn)∈A 是解决问题的关键,换句话说,多变量也好,单变量也好,最后我们要做的都是一个逆向的求解,或者叫做穷举的方法,因为我们并没计算公式能够得到全部的向量
x
⃗
=
(
x
1
,
…
,
x
n
)
\vec{x}=(x_1,\dots,x_n)
x=(x1,…,xn) 保证其满足
x
⃗
∈
A
\vec{x}\in A
x∈A 所以
g
g
g 和
f
f
f 的关系也就是这么确定的,找到所有f的输入
x
⃗
\vec{x}
x 使其满足
y
0
⃗
\vec{y_0}
y0 的需求,求的所有满足条件的概率和。
这部分和单离散随机变量完全一致,只是随机变量变成了随机变量向量了。
下面的定理关于二项分布和伯努利分布:
Theorem Binomial and Bernoulli Distributions. Assume that X 1 , … , X n X_1,\dots,X_n X1,…,Xn are i.i.d. random variables having the Bernoulli distribution with parameter p p p .Let Y = X 1 + … X n Y=X_1+\dots X_n Y=X1+…Xn . Then Y Y Y has the binomial distribution with parameters n n n and p p p
当随即向量 x ⃗ = ( x 1 , … , x n ) \vec{x}=(x_1,\dots,x_n) x=(x1,…,xn) 是独立同伯努利分布的随机变量的时候,且其概率为 p p p ,其函数 Y = f ( x 1 , … , x n ) Y=f(x_1,\dots,x_n) Y=f(x1,…,xn) 的分布是二项分布 参数是 n n n 和 p p p
证明:
- 可以明确的是,当 y = x 1 + ⋯ + x n y=x_1+\dots+x_n y=x1+⋯+xn 时, y y y 的值在 [ 0 , n ] [0,n] [0,n] 之间
- 设 m ∈ [ 0 , n ] m\in [0,n] m∈[0,n] 那么,根据加法和伯努利分布的性质,其中m个随机变量为1,另外n-m个随机变量为0: P r ( Y = m ) = ( n m ) p m ( 1 − p ) n − m Pr(Y=m)=\begin{pmatrix}n\\m\end{pmatrix}p^{m}(1-p)^{n-m} Pr(Y=m)=(nm)pm(1−p)n−m
- 很显然,Y的分布是二项分布。
- Q.E.D
有连续联合分布的多随机变量 Random Variables with a Continuous Joint Distribution
先来个🌰,不然全文没有例子有点不像概率论学习该有的样子,顺便补充一句,博客只能是总结精华部分,如果想和熟练的掌握,需要去做大量的练习,也就是我们这里的例子也好课后习题也好,反正要练习。
排队的🌰 :
假设队伍里面的前两个客户计划同时离开,
X
i
X_i
Xi 表示第
i
i
i 为客户用的时间
i
=
1
,
2
i=1,2
i=1,2 假设
X
1
X_1
X1 和
X
2
X_2
X2 是独立的随机变量,并有相同的分布:
f
(
x
)
=
2
e
−
2
x
f(x)=2e^{-2x}
f(x)=2e−2x 其中
x
>
0
x>0
x>0 因为两个客户想同时离开(也就是先完成的人要等待没完成的人),所以我们感兴趣的是他们用的总时间:
Y
=
X
1
+
X
2
Y=X_1+X_2
Y=X1+X2 所以
Y
Y
Y 的p.d.f. 是我们要求的:
for each
y
,let
A
y
=
(
x
1
,
x
2
)
:
x
1
+
x
2
≤
y
\text{for each } y\text{,let }\\ A_y={(x_1,x_2):x_1+x_2\leq y}\\
for each y,let Ay=(x1,x2):x1+x2≤y
那么当
Y
≤
y
Y\leq y
Y≤y 当且仅当
(
X
1
,
X
2
)
∈
A
y
(X_1,X_2)\in A_y
(X1,X2)∈Ay 集合
A
y
A_y
Ay 如图所示
如果我们让
G
(
y
)
G(y)
G(y) 来定义
Y
Y
Y 的 c.d.f. 那么对于
y
>
0
y>0
y>0 我们有:
G
(
y
)
=
P
r
(
(
X
1
,
X
2
)
∈
A
y
)
=
∫
0
y
∫
0
y
−
x
2
4
e
−
2
x
1
−
2
x
2
d
x
1
d
x
2
=
∫
0
y
2
e
−
2
x
2
[
1
−
e
−
2
(
y
−
x
2
)
]
d
x
2
=
∫
0
y
[
2
e
−
2
x
2
−
2
e
−
2
y
]
d
x
2
=
1
−
e
−
2
y
−
2
y
e
−
2
y
G(y)=Pr((X_1,X_2)\in A_y)=\int^{y}_{0}\int^{y-x_2}_{0}4e^{-2x_1-2x_2}dx_1dx_2\\ =\int^{y}_{0}2e^{-2x_2}[1-e^{-2(y-x_2)}]dx_2=\int^{y}_{0}[2e^{-2x_2-2e^{-2y}}]dx_2\\ =1-e^{-2y}-2ye^{-2y}
G(y)=Pr((X1,X2)∈Ay)=∫0y∫0y−x24e−2x1−2x2dx1dx2=∫0y2e−2x2[1−e−2(y−x2)]dx2=∫0y[2e−2x2−2e−2y]dx2=1−e−2y−2ye−2y
上面这个例子用到的主要数学技巧是微积分,多元微积分,而得到积分表达式却用到了概率的知识,配合示意图,这个例子变得很清晰,但是其原理还是值得我们研究的。
Theorem Brute-Force Distribution of a Function.Suppose that the joint p.d.f. of X ⃗ = ( X 1 , … X n ) \vec{X}=(X_1,\dots X_n) X=(X1,…Xn) is f ( x ⃗ ) f(\vec{x}) f(x) and that Y = r ( X ⃗ ) Y=r(\vec{X}) Y=r(X) For each real number y y y ,define A y = { x : r ( x ) ≤ y } A_y=\{x:r(x)\leq y\} Ay={x:r(x)≤y} ,Then the c.d.f. G(y) of Y is:
G ( y ) = ∫ ⋯ ∫ ⏟ A y f ( x ) d x G(y)=\underbrace{\int\dots \int}_{A_y} f(x)dx G(y)=Ay ∫⋯∫f(x)dx
这是个简单暴力的方法来确定一个连续多随机变量分布,和多离散随机变量相似,都是把满足条件的所有的积分(求和)重新得到新变量的 c.d.f ,其证明也很容易:
proof:
G
(
y
)
=
P
r
(
Y
≤
y
)
=
P
r
[
r
(
X
⃗
)
≤
y
]
=
P
r
(
X
⃗
∈
A
y
)
G(y)=Pr(Y\leq y)=Pr[r(\vec{X})\leq y]=Pr(\vec{X}\in A_y)
G(y)=Pr(Y≤y)=Pr[r(X)≤y]=Pr(X∈Ay)
上面的方法适合于变量较少,而且分布比较简单的情况下,当情况复杂了,这种方法将会非常酷男,困得部分也是确定积分范围的部分,也就是说我们基本没什么办法直接得到
X
⃗
\vec{X}
X 使其满足
r
(
X
⃗
)
≤
y
r(\vec{X})\leq y
r(X)≤y ,这个问题将成为一个大问题,如果
r
r
r 是可逆的,这个就好办,但是如果r是个多对一的不可逆函数,情况就变得复杂了。
当然我们还是可以研究最简单的情况 —— 线性情况
Theorem Linear Function of Two Random Varibales Let X 1 X_1 X1 and X 2 X_2 X2 have joint p.d.f. f ( x 1 , x 2 ) f(x_1,x_2) f(x1,x2) and let Y = a 1 X 1 + a 2 X 2 + b Y=a_1X_1+a_2X_2+b Y=a1X1+a2X2+b with a 1 ≠ 0 a_1\neq 0 a1=0 The Y Y Y has a continuous distribution whose p.d.f. is
g ( y ) = ∫ − ∞ ∞ f ( y − b − a 2 x 2 a 1 , x 2 ) 1 ∣ a 1 ∣ d x 2 g(y)=\int^{\infty}_{-\infty}f(\frac{y-b-a_2x_2}{a_1},x_2)\frac{1}{|a_1|}dx_2 g(y)=∫−∞∞f(a1y−b−a2x2,x2)∣a1∣1dx2
上面的公理给出了线性双连续变量的分布公式,我们来证明一下:
-
首先我们发现 Y的 c.d.f. G的导数是g,也就是上面定理中的g
-
对于每一个y,定义 A y = ( x 1 , x 2 ) : a 1 x 1 + a 2 x 2 + b ≤ y A_y={(x_1,x_2):a_1x_1+a_2x_2+b\leq y} Ay=(x1,x2):a1x1+a2x2+b≤y
-
A y A_y Ay 和上面的图(本文就一张图,没错,就是上面例子的那张图) 的情况类似
-
写出积分限,外部积分到 x 2 x_2 x2 里层积分是 x 1 x_1 x1 ,然后就有:
G ( y ) = ∫ A y ∫ f ( x 1 , x 2 ) d x 1 d x 2 = ∫ − ∞ ∞ ∫ − ∞ ( y − b − a 2 x 2 ) a 1 f ( x 1 , x 2 ) d x 1 d x 2 G(y)=\int_{A_y}\int f(x_1,x_2)dx_1dx_2=\int^{\infty}_{-\infty}\int^{\frac{(y-b-a_2x_2)}{a_1}}_{-\infty}f(x_1,x_2)dx_1dx_2 G(y)=∫Ay∫f(x1,x2)dx1dx2=∫−∞∞∫−∞a1(y−b−a2x2)f(x1,x2)dx1dx2 -
上面内层积分限有点小复杂,因为y是我们关心的变量,放在内层处理起来会麻烦,所以把他挪到外层。方法就是换元, z = a 1 x 1 + a 2 x 2 + b z=a_1x_1+a_2x_2+b z=a1x1+a2x2+b ,那么 x 1 = z − a 2 x 2 − b a 1 x_1=\frac{z-a_2x_2-b}{a_1} x1=a1z−a2x2−b 那么就有 d x 1 = d z 1 / a 1 dx_1=dz_1/a_1 dx1=dz1/a1 于是内层积分就变成了下面这个式子:
∫ − ∞ y f ( z − b − a 2 x 2 a 1 , x 2 ) 1 a 1 d z \int^{y}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)\frac{1}{a_1}dz ∫−∞yf(a1z−b−a2x2,x2)a11dz -
然后我们使用积分的性质做下面的计算:
G ( y ) = ∫ − ∞ ∞ ∫ − ∞ y f ( z − b − a 2 x 2 a − 1 , x 2 ) 1 a 1 d z d x 2 = ∫ − ∞ y ∫ − ∞ ∞ f ( z − b − a 2 x 2 a 1 , x 2 ) d x 2 d z G(y)=\int^{\infty}_{-\infty}\int^{y}_{-\infty}f(\frac{z-b-a_2x_2}{a-1},x_2)\frac{1}{a_1}dzdx_2\\ =\int^{y}_{-\infty}\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2dz G(y)=∫−∞∞∫−∞yf(a−1z−b−a2x2,x2)a11dzdx2=∫−∞y∫−∞∞f(a1z−b−a2x2,x2)dx2dz -
我们可以让内层积分成为一个函数 t ( z ) = ∫ − ∞ ∞ f ( z − b − a 2 x 2 a 1 , x 2 ) d x 2 t(z)=\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2 t(z)=∫−∞∞f(a1z−b−a2x2,x2)dx2 ,然后我们就能得到 G ( y ) = ∫ − ∞ y g ( z ) d z G(y)=\int^{y}_{-\infty}g(z)dz G(y)=∫−∞yg(z)dz 根据微积分基本定理II 其求导等于t(z) ,而 t z t{z} tz 就是我们上面定理中的 g ( y ) g(y) g(y)
-
Q.E.D
精彩的部分在换元,通过换元来得到了我们的目标函数,这个应该算是微积分技巧,跟概率原理没太大关系,但是可以看出,微积分基础是多么重要啊。
然而这个定理你以为就完了?还没有,有更劲爆的还在后面。
当
∫
−
∞
y
∫
−
∞
∞
f
(
z
−
b
−
a
2
x
2
a
1
,
x
2
)
d
x
2
d
z
\int^{y}_{-\infty}\int^{\infty}_{-\infty}f(\frac{z-b-a_2x_2}{a_1},x_2)dx_2dz
∫−∞y∫−∞∞f(a1z−b−a2x2,x2)dx2dz 中,
a
1
=
a
2
=
1
a_1=a_2=1
a1=a2=1 并且
b
=
0
b=0
b=0 的时候,这个式子改名叫卷积,没错卷积,神经网络来的同学激动不?看了这么久了,终于慢慢的靠上边了。
Definition Convolution.Let X i X_i Xi be independent continuous random variables and let Y = X 1 + X 2 Y=X_1+X_2 Y=X1+X2 The distribution of Y Y Y is called the convolution of the distributions of X 1 X_1 X1 and X 2 X_2 X2 .The p.d.f. of Y Y Y is sometimes called convolution of the p.d.f.'s of X 1 X_1 X1 and X 2 X_2 X2.
如果我们把
X
i
X_i
Xi 的p.d.f. 写成
f
i
f_i
fi 其中
i
=
1
,
2
i=1,2
i=1,2 的话那么
Y
=
X
1
+
X
2
Y=X_1+X_2
Y=X1+X2 的 p.d.f.是:
g
(
y
)
=
∫
−
∞
∞
f
1
(
y
−
t
)
f
2
(
t
)
d
t
g(y)=\int^{\infty}_{-\infty}f_1(y-t)f_2(t)dt
g(y)=∫−∞∞f1(y−t)f2(t)dt
其中t是个哑变量,或者叫做临时变量。
同理,交换
X
1
X_1
X1 和
X
2
X_2
X2 能得到:
g
(
y
)
=
∫
−
∞
∞
f
1
(
t
)
f
2
(
y
−
t
)
d
t
g(y)=\int^{\infty}_{-\infty}f_1(t)f_2(y-t)dt
g(y)=∫−∞∞f1(t)f2(y−t)dt
怎么样,像卷积了吧,不过不要忘了这是双连续随机变量的线性函数变换后的pd.f.的关系!这句话有点复杂?那就好好多读几遍。
本想举个🌰就结束,结果发现这几个🌰是连续的,所以这里就不再多写了,大家可以参考’Probability and Statistics 4th’中的例子,都非常精彩
总结
本文扩展上文介绍了多随机变量的函数,从离散到连续,遵循和单变量类似的法则,但是用处却大大扩展了,下一篇开始就要进入第四章了,我们一起加油。。