但愿所有的概率分布都是正态分布。有了正态分布,就方便多了—既能一口气查出整个范围的概率,又能留下点时间玩游戏,谁还会花时间一个一个地计算概率呢?在本章中,你将学习如何闪电般解决更复杂的问题,还将懂得如何将正态分布的便利运用到其他概率分布上。
1. 多个正态数据之和的分布
双双登上爰情过山车
如今婚礼市场生意红火,为了让新人对这个特别的日子刻骨铭心。市面上出现了坐过山车举办婚礼。但为了安全起见,新郎新娘的综合体重不得超过380磅。你觉得一对新人的体重不超过这个重量的概率是多少?
在开始计算之前,我们需要了解新郎新娘的体重分布情况——包括结婚礼服在内。新郎和新娘的体重都符合正态分布,新娘的体重符合N(150,400),新郎的体重符合N(190,500),体重单位为“磅”。
我们需要设法通过这两个概率分布算出一对新郎新娘的体重低于过山车允许的最大载荷的概率。如果算出的概率足够高,我们就可以满怀信心地说:坐过山车举行婚礼的想法是可行的。
那么组合后的概率分布是什么样呢?你觉得我们该怎样求出新郎新娘综合体重的概率分布?你觉得会是哪种分布?
正态新郎+正态新娘
还记得我们最开始讲到连续数据的时候吗?那时我们讲过身高、体重之类的数据是连续数据,且往往符合正态分布。
这一次,我们研究的是一对新婚佳偶的综合体重。综合体重也是体重,同时我们已经知道体重的分布趋势;综合体重依然是连续数据,而且,综合体重依然符合正态分布。这就是说,新娘加新郎的体重符合正态分布。
我们可以像前面一样,利用概率表查找概率,即我们可以查出综合体重低于380磅的概率——这是爱情过山车的要求。
只有一个问题一在动手查找概率之前,我们需要知道新娘新郎综合体重的均值和方差。该怎么求呢?
新郎新娘,新郎和新娘的综合体重符合正态分布,但均值是多少呢?
综合体重符合哪种分布?
让我们试试用X和Y表示新郎新娘的体重分布,如果用X代表新娘的体重,用Y代表新郎的体重,则X和Y是独立的,然后需要求出μ和σ,其中:
,也就是说,在进一步进行计算之前,我们需要求出X+Y的期望和方差,怎么求?
当我们处理离散概率分布时,只要X和Y是独立变量,就可以用下列算式计算E(X+Y)和var(X+Y):
且
于是,只要知道X和Y的期望和方差,就能用上面的式子计算X+Y的期望和方差。
我们可以用已知求未知
由于我们已知新娘体重和新郎体重的概率分布,因此能求出新郎新娘综合体重的概率分布。
在研究综合正态变量的时候,想办法求出X+Y的分布是十分有用的。
- 如果独立随机变量X和X符合正态分布,那么X+Y也符合正态分布:
- 如果X和Y是独立随机变量,且都符合正态分布,则X-Y符合正态分布:
方差的加法计算一眼看上去并不直观,不过,这和计算离散概率分布的道理是一样的,不论我们用X加上还是减去Y,但实际上变异性都增大了,方差之和反映了这种变化。和X+Y的分布一样,无论是与X相比还是与Y相比,两种概率都导致图形拉长、变扁。
查看X-Y的形状,可以看出该曲线形状和X+Y的曲线形状一样只不过中心位置发生了移动。两种概率分布的方差相同,均值各异。
更多人想坐爰情过山车
看来,新郎新娘的综合体重小于过山车限额载荷的几率很大,不过,为什么仅限新郎新娘乘坐过山车呢?
让我们再加上一辆轿车,另外载上四位婚礼成员,看看结果如何。这些成员可能会是老爸、老妈、伴娘、伴郎或新娘新郎希望共同登车的任何人。
轿车的总载重量为800磅,假定一位成年人的体重分布为:
,其中X代表一位成年人的体重,单位为“磅”。可是如何计算4位成年人的综合体体重低于800磅的概率呢?
2.正态数据的线性变换
线性变换描述了数据的基本变化
线性变换描述的是概率分布中的数值在大小方面的基本变化,即,4X其实描述的是一个成年人的体重放大四倍后的结果。
那么线性变换的分布是怎样的?
假定你有一个X的线性变换,其形式为aX+b,其中,,由于X符合正态分布,于是aX+b也属于正态分布。但期望和方差是多少呢?
让我们先算期望。在讲离散概率分布的时候,我们发现。现在,x符合正态分布且,于是我们得出。
方差的处理方法与此相似,在讲离散概率分布的时候。我们发现,且这里的,于是得出
合并以上两个结果,得到:
,即,新均值为,新方差为。那么独立观察结果是多少?
3.正态数据的独立观察结果
独立观察结果描述的是你有多少数值
我们实际需要计算的是4位独立成年人的综合体重的概率分布,而不是对体重进行线性变换。
每一位成年人的体重都是X的一个观察结果,这意味着每一位成年人的体重都通过X的概率分布进行描述。我们需要求以下概率
其中X(1-4)均为X的独立观察结果。
独立观察结果的期望和方差
在讲到离散性随机变量的独立观察结果的方差和期望时,我们曾经发现:
及
如你所料,相同的算法也适用于连续随机变量,即,如果,,则
有问必答
问: 线性变换和独立观察结果之间有何差别?
答: 线性变换影响概率分布中的基本数值。例如,如果你有一根特定长度的绳子,那么,进行线性变换会影响绳子的长度
独立观察结果影响所处理的事件的数量。例如,如果一段绳子有n个独立观察结果,则所讨论的就是n段绳子。
通常,如果数量发生变化,则所面对的是独立变量;如果基本数据发生变化,则所面对的是变换。
问: 我真的要分清楚哪是哪吗这有什么区别?
答: 你必须分清楚哪是哪,因为这会影响概率计算。对于线性变换和独立观察结果,均值的计算方法是相同的,但方差的计算方法有很大差别。如果存在n个独立观察结果,则新方差是原方差的n倍。如果将概率分布按照aX+b的形式进行线性变换,则新方差为原方差的a2倍。
问: 我能在同一个概率分布中既拥有独立观察结果又拥有线性变换吗?
答: 可以。在计算概率分布的时候,只要遵守方差和期望的基本计算规律即可。离散概率分布和连续概率分布的规律是相同的。
知识要点
- 如果,,,,且X和Y为独立变量,则:
- 如果,,且a和b都是数字,则:
- 如果,,,为X的独立观察结果,且,,则:
END
大家感兴趣的话可以跟着一起学,更多R语言数据分析及可视化内容,长按或扫描下方二维码关注“橡树学堂”详细了解:
关注橡树学堂,每天学一点R语言,让我们爱上数据分析可视化