将正态分布运用到其他概率分布
正态分布的相加
假设一个情境:德克想到了“爱情过山车”的创意,让新婚夫妇在过山车上办婚礼。在这之前,需要确保他所设想的特别座驾能够承载新郎和新娘的重量。他设想的座驾最多承载380磅的重量,求新郎和新娘综合体重不超过这个重量的概率是多少?
假设新娘的体重符合正态分布N(150, 400),新郎的体重符合N(190, 500),单位为“磅”。
正态新娘+正态新郎
新郎和新娘的体重符合正态分布,如下所示:
我们要求的是新郎和新娘的综合概率分布,即,要求新郎与新娘之和的概率分布。
新
娘
体
重
+
新
郎
体
重
~
?
新娘体重+新郎体重~?
新娘体重+新郎体重~?
假设新娘和新郎的体重互相独立,则分布形状应与下图有几分相似:
在连续数据中,身高、体重之类的数据往往符合正态分布。现在我们求的是夫妻的综合体重,也应该符合正态分布。这意味着可以利用概率表查找概率。
回忆:两个独立变量的期望和方差加减
E ( X + Y ) = E ( X ) + E ( Y ) E ( X − Y ) = E ( X ) − E ( Y ) V a r ( X + Y ) = V a r ( X ) + V a r ( Y ) V a r ( X − Y ) = V a r ( X ) + V a r ( Y ) E(X+Y) = E(X)+E(Y) \\ E(X-Y) = E(X)-E(Y) \\ Var(X+Y) = Var(X)+Var(Y) \\ Var(X-Y) = Var(X)+Var(Y) E(X+Y)=E(X)+E(Y)E(X−Y)=E(X)−E(Y)Var(X+Y)=Var(X)+Var(Y)Var(X−Y)=Var(X)+Var(Y)
上面的规则同样适用于连续数据。我们已知新娘(假设为X)和新郎(假设为Y)是正态分布,以及分别的期望 μ \mu μ和方差 σ 2 \sigma^2 σ2,它们是独立变量,再利用上面的式子,就可以求出综合体重(为X+Y)的概率分布了。
更通用的表达,如果:
X
∼
N
(
μ
x
,
σ
x
2
)
且
Y
∼
N
(
μ
y
,
σ
y
2
)
X \sim N(\mu_x, \sigma^2_x)且Y \sim N(\mu_y, \sigma^2_y)
X∼N(μx,σx2)且Y∼N(μy,σy2)
则
X
+
Y
∼
N
(
μ
,
σ
2
)
X+Y \sim N(\mu, \sigma^2)
X+Y∼N(μ,σ2)
其中
μ
=
μ
x
+
μ
y
σ
2
=
σ
x
2
+
σ
y
2
\mu = \mu_x + \mu_y \\ \sigma^2 = \sigma^2_x + \sigma^2_y
μ=μx+μyσ2=σx2+σy2
X+Y 的方差大于 X 的方差,也大于 Y 的方差,这使得 X+Y 的曲线比 X 的曲线和 Y 的曲线都拉得长,这一点对于任何正态 X 和 Y 都成立。在将两个变量相加之后,实际上增大了变异性,于是使得分布形状拉长;随着图形拉长,图形还会变得更扁,这样才能使图形下方的总面积仍然为 1。
有时候求的是两个变量之差的概率,X-Y。
同理,
μ
=
μ
x
−
μ
y
σ
2
=
σ
x
2
+
σ
y
2
\mu = \mu_x - \mu_y \\ \sigma^2 = \sigma^2_x + \sigma^2_y
μ=μx−μyσ2=σx2+σy2
方差的加法计算一眼看上去并不直观,不过,这和计算离散概率分布的道理是一样的,尽管我们用 X 减去 Y,但实际上变异性还是增大了,方差之和反映了这种变化。和 X+Y 的分布一样,无论是与 X 相比还是与 Y 相比,X-Y 都导致图形拉长、变扁。
查看 X~Y 的形状,可以看出该曲线形状和 X+Y 的曲线形状一样,只不过中心位置发生了移动。两种概率分布的方差相同,均值各异。
既然我们知道了综合体重的概率分布,那们可以按老样子:算出分布和范围、将分布标准化、查找概率3个步骤算出概率了。
案例答案:
另一道变量相减的例题:
正态分布的线性变换与独立观察结果
假设一个情境:如果过山车需要坐4个人,轿车的总载重量为800磅,假定一位成年人的体重分布为: X ∼ N ( 160 , 625 ) X \sim N(160,625) X∼N(160,625),那么4为成年人的综合体重低于800磅的概率?
线性变换描述了数据的基本变化…
让我们先看 4X 的概率分布,其中 X 为一位成年人的体重。4X 是否适合描述 4 位成年人的概率分布?
4X 的分布其实是 X 的一个线性变换,是 X 进行 aX+b 变换的结果,其中 a 等于 4,b 等于 0,这与我们先前在离散概率分布中遇到过的变换类型完全相同。
线性变换描述的是概率分布中的数值在大小方面的基本变化,即,4X 其实描述的是一个成年人的体重放大四倍后的结果。
假定你有一个X的线性变换,其形式为 aX+b,其中$ X \sim N (u, σ^2)$,由于X符合正态分布,于是aX+b也属于正态分布。但期望和方差是多少呢?
让我们先算期望。在讲离散概率分布的时候,我们发现 E (aX+b) =aE (X) +b。现在,X 符合正态分布且 E (X) =u,于是我们得出 E (aX+b) =aμ+b。
方差的处理方法与此相似,在讲离散概率分布的时候。我们发现 V a r ( a X + b ) = a 2 V a r ( X ) Var (aX+b) = a^2Var (X) Var(aX+b)=a2Var(X),且这里的 V a r ( X ) = σ 2 Var (X) =\sigma ^2 Var(X)=σ2, 于是得出 V a r ( a X + b ) = a 2 σ 2 Var (aX+b) =a^2 \sigma ^2 Var(aX+b)=a2σ2。
合并以上两个结果,得到:
a
X
+
b
∼
N
(
a
μ
+
b
,
a
2
σ
2
)
aX+b \sim N(a\mu+b, a^2 \sigma^2)
aX+b∼N(aμ+b,a2σ2)
即,新均值为
a
μ
+
b
a\mu+b
aμ+b,新方差为
a
2
σ
2
a^2\sigma^2
a2σ2。
而独立观察结果描述的是你有多少数值
我们实际需要计算的是 4 位独立成年人的综合体重的概率分布,而不是对每一位成年人的体重进行变换。即,我们需要算出 X 的 4 个独立观察结果的概率。
每一位成年人的体重都是 X 的一个观察结果,这意味着每一位成年人的体重都通过 X 的概率分布进行描述。我们需要算出 X 的 4 个独立观察结果的概率分布,也就是要求以下概率:
X
1
+
X
2
+
X
3
+
X
4
X_1+X_2+X_3+X_4
X1+X2+X3+X4
其中
X
1
,
X
2
,
X
3
和
X
4
X_1,X_2,X_3和X_4
X1,X2,X3和X4,是 X 的独立观察结果。
在讲到离散随机变量的独立观察结果的方差和期望时,我们曾经发现:
E ( X 1 + X 2 + … X n ) = n E ( X ) E (X_1+X_2+…X_n) =nE(X) E(X1+X2+…Xn)=nE(X)
及
V a r ( X 1 + X 2 + . . . + X n ) = n V a r ( X ) Var (X_1+X_2+... +X_n) =nVar(X) Var(X1+X2+...+Xn)=nVar(X)
如你所料,相同的算法也适用于连续随机变量,即,如果 X ∼ N ( u , σ 2 ) X \sim N(u,σ^2) X∼N(u,σ2),则:
X 1 + X 2 + . . . + X n ∼ N ( n μ , n σ 2 ) X_1+X_2+...+X_n \sim N(n\mu, n\sigma^2) X1+X2+...+Xn∼N(nμ,nσ2)
线性变换与独立观测值详细介绍见:【读书笔记->统计学】05-02 “概率”的整体影响-随机变量的线性变换、独立观测值概念简介
总结
例题解答: