本次笔记取材于:
-
离散随机变量的概率分布
随机变量(random variable)的本质是一个函数,是从样本空间的子集到实数的映射,将事件转换成一个数值。我们通常用一个大写字母来表示一个随机变量,比如X。
随机变量的取值,每个值都对应有发生的概率,构成该离散随机变量的概率分布。
离散随机变量的概率分布有很多种类,常见如下:
-
伯努利分布(Bernoulli Distribution)
随机变量只有两个可能取值0或1。表示为:
P ( X = k ) = { p                      f o r    k = 1 1 − p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases} P(X=k)={pfork=11−pfork=0
现实示例:抛硬币,出现正面,记录为1。 -
二项分布(Binomial Distribution)
进行n次独立测试,每次测试成功的概率为p(相应的,失败的概率为1-p)。这n次测试中的“成功次数”是一个随机变量。这个随机变量符合二项分布(binomial distribution)。
次数,可以用分步计数的角度考虑。
n次测试,如果随机变量为k,意味着其中的k次成功,n-k次失败。相当于分组问题,要把n个总数分成k和n-k两组,共有 ( n k ) \begin{pmatrix} n\\k \end{pmatrix} (nk)种可能(一个具体的数)。其中每种可能出现的概率为 p k ( 1 − p ) n − k p^k(1-p)^{n-k} pk(1−p)n−k(每一种可能的概率都一样)。
二项式分步可以表示为:
P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k} P(X=k)=(nk)pk(1−p)n−k
现实示例:连续打靶,中靶次数。 -
泊松分布(Poisson Distribution)
二项分布的一种极限情况,当 p → 0 p→0 p→0, n → + ∞ n→+∞ n→+∞,而 n p = λ np=λ np=λ时,二项分布趋近于泊松分布。
这意味着我们进行无限多次测试,每次成功概率无穷小,但 n n n和 p p p的乘积是一个有限的数值。
泊松分布用于模拟低概率事件。泊松分布的关键特征是,随机变量的取值与区间的长短成正比。这里的区间是广义的,它既可以表示时间,也可以表示空间。
P ( X = k ) = λ k k ! e − λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n P(X=k)=k!λke−λk=0,1,...n现实示例:地震次数,比如十年内某地发生地震的总数。
可以将十年划分为 n n n个小时间段,每个时间段内地震发生的概率为 p p p。我们假设小时间段很短,以致于不可能有两次地震发生在同一小时间段内,那么地震的总数是一个随机变量,趋近于泊松分布。
-
几何分布(Geometric Distribution)
连续进行独立测试,直到测试成功。每次测试成功的概率为p。那么,到我们成功时,所进行的测试总数是一个随机变量,可以取值1到正无穷。
P ( X = k ) = ( 1 − p ) ( k − 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2... P(X=k)=(1−p)(k−1)pk=1,2...
现实示例:产品检验。比如产品的合格率为0.65。我们需要检验k次才发现第一个合格产品
-
负二项分布(Negative geometric diatribution)
几何分布实际上是负二项分布(negative geometric distribution)的一种特殊情况。
负二项分布是进行独立测试,但直到出现 r r r次成功,测试的总数 k k k。 r = 1 r=1 r=1时,负二项分布实际上就是几何分布。
在连续的r次测试时,我们只需要保证最后一次测试是成功的,而之前的k-1次中,有r-1次成功:
P ( X = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r} P(X=k)=(k−1r−1)pr(1−p)k−r
现实示例:产品检验,产品的合格率为 p p p。我们需要检验 k k k次才共发现r个合格产品。 -
符合超几何分布(hypergeometric distribution)
一个袋子中有n个球,其中r个是黑球,n-r是白球,从袋中取出m个球,让X表示取出球中的黑球的个数,那么X是一个符合超几何分布(hypergeometric distribution)的随机变量。
-
常见分布对比表
分布 | 可能取值 | 数学描述 | 现实案例 | Python实现函数 |
---|---|---|---|---|
伯努利分布(Bernoulli Distribution) | 0;1 | P ( X = k ) = { p                      f o r    k = 1 1 − p          f o r    k = 0 P(X=k)=\begin{cases} p \;\;\;\;\;\;\;\;\;\; for \;k=1\\1-p \; \;\;\;for\;k=0 \end {cases} P(X=k)={pfork=11−pfork=0 | 抛硬币,出现正面,记录为1;反面记录为0 | scipy.stats.bernoulli() |
二项分布(Binomial Distribution) | 0;1;2;…n(总数) | P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X=k)=\begin{pmatrix} n\\k \end{pmatrix}p^k(1-p)^{n-k} P(X=k)=(nk)pk(1−p)n−k | 连续打靶,中靶次数。 | scipy.stats.binom() |
泊松分布(Poisson Distribution) | 0;1;2…;n | P ( X = k ) = λ k k ! e − λ k = 0 , 1 , . . . n P(X=k)=\frac{\lambda ^k}{k!}e^{-\lambda}\\k=0,1,...n P(X=k)=k!λke−λk=0,1,...n | 地震的总数 | scipy.stats.poisson() |
几何分布(Geometric Distribution) | 1;2;… | P ( X = k ) = ( 1 − p ) ( k − 1 ) p k = 1 , 2... P(X=k)=(1-p)^{(k-1)}p \\k=1,2... P(X=k)=(1−p)(k−1)pk=1,2... | 产品检验 | scipy.stats.geom() |
负二项分布(Negative geometric diatribution) | 1;2;… | P ( X = k ) = ( k − 1 r − 1 ) p r ( 1 − p ) k − r P(X=k)=\begin{pmatrix} k-1\\r-1 \end{pmatrix}p^r(1-p)^{k-r} P(X=k)=(k−1r−1)pr(1−p)k−r | 产品检验 | scipy.stats.ngeom() |
符合超几何分布(hypergeometric distribution) |
-
连续随机变量
为了表示连续随机变量的概率分布,我们可以使用累积分布函数或者密度函数。密度函数是对累积分布函数的微分.
密度函数在某个区间的积分,是随机变量在该区间取值的概率。这意味着,在密度函数的绘图中,概率是曲线下的面积。
-
均匀分布(uniform distribution)
假设我们有一个随机数生成器,产生一个从0到1的实数,每个实数出现的概率相等。这样的一个分布被称为均匀分布(uniform distribution).
它的累积分布函数是:
F ( x ) = { 0 ,        x < 0 x ,        0 ≤ x ≤ 1 1 ,        x > 1 F(x)=\begin {cases} 0,\;\;\; x<0\\x,\;\;\;0\leq x\leq1 \\ 1,\;\;\;x>1 \end {cases} F(x)=⎩⎪⎨⎪⎧0,x<0x,0≤x≤11,x>1
均匀分布的密度函数可以写成:
f ( x ) = { 1 ,        0 ≤ x ≤ 1 0 ,        x < 0      o r      x > 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x<0\;\;or\;\; x>1 \end{cases} f(x)={1,0≤x≤10,x<0orx>1 -
指数分布(exponential distribution)
指数分布(exponential distribution)的密度函数随着取值的变大而指数减小。
指数分布的密度函数为:
f ( x ) = { λ e − λ x                i f        x ≥ 0 0                              i f        x < 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x<0 \end{cases} f(x)={λe−λxifx≥00ifx<0累积分布函数为:
F ( x ) = 1 − e − λ x , x ≥ 0 F(x)=1−e^{−λx},x≥0 F(x)=1−e−λx,x≥0
现实案例:洪水等级的分布 -
正态分布(normal distribution)
正态分布又被称为高斯分布(Gauss distribution),因为高斯在1809年使用该分布来预测星体位置。
第一个提出该分布的是法国人De Moivre。作为统计先驱,这位数学家需要在咖啡馆“坐台”,为赌徒计算概率为生。正态分布的发现来自于对误差的估计。
正态分布的密度函数如下:
f ( x ) = 1 2 π σ e − 1 ( x − μ ) 2 / 2 σ 2 , − ∞ < x < ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty < x<\infty f(x)=2πσ1e−1(x−μ)2/2σ2,−∞<x<∞
正态分布表示成 N ( μ , σ ) N(μ,σ) N(μ,σ)。当 μ = 0 , σ = 1 μ=0,σ=1 μ=0,σ=1,这样的正态分布被称作标准正态分布(standard normal distribution)。 -
Gamma分布
Gamma分布在统计推断中具有重要地位。它的密度函数如下:
g ( t ) = λ α Γ ( α ) t α − 1 e − λ t      ,    t ≥ 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0 g(t)=Γ(α)λαtα−1e−λt,t≥0
其中的Gamma函数可以表示为:
Γ ( x ) = ∫ 0 ∞ μ x − 1 e − u d u        ,      x > 0 \Gamma(x)=\int^{\infty}_0 \mu^{x-1}e^{-u}du \;\;\; ,\;\;x>0 Γ(x)=∫0∞μx−1e−udu,x>0 -
常见连续分布对比表
分布 | 可能取值 | 概率密度函数 | 现实案例 | Python实现函数 |
---|---|---|---|---|
均匀分布(uniform distribution) | 无限 | f ( x ) = { 1 ,        0 ≤ x ≤ 1 0 ,        x < 0      o r      x > 1 f(x)=\begin{cases} 1,\;\;\;0\leq x \leq 1\\0,\;\;\; x<0\;\;or\;\; x>1 \end{cases} f(x)={1,0≤x≤10,x<0orx>1 | ||
指数分布(exponential distribution) | 无限 | f ( x ) = { λ e − λ x                i f        x ≥ 0 0                              i f        x < 0 f(x)=\begin{cases}λe^{−λx} \;\;\;\;\;\;\; if \;\;\;x \geq 0\\0 \;\;\;\; \; \; \; \; \; \; \; \; \; \; if \;\;\; x<0 \end{cases} f(x)={λe−λxifx≥00ifx<0 | 洪水等级 | scipy.stats.expon() |
正态分布(normal distribution) | 无限 | f ( x ) = 1 2 π σ e − 1 ( x − μ ) 2 / 2 σ 2 , − ∞ < x < ∞ f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-1(x-\mu)^2/2\sigma ^2},-\infty < x<\infty f(x)=2πσ1e−1(x−μ)2/2σ2,−∞<x<∞ | scipy.stats.norm() | |
Gamma分布 | 无限 | g ( t ) = λ α Γ ( α ) t α − 1 e − λ t      ,    t ≥ 0 g(t)=\frac{\lambda^{\alpha}}{\Gamma(\alpha)}t^{\alpha -1}e^{-\lambda t}\;\;,\;t \geq0 g(t)=Γ(α)λαtα−1e−λt,t≥0 | scipy.stats.gamma() |
-
联合分布(joint distribution)
联合分布(joint distribution)描述了多个随机变量的概率分布,是对单一随机变量的自然拓展。
联合分布的多个随机变量都定义在同一个样本空间中。
对于联合分布来说,最核心的依然是概率测度这一概念。
-
离散随机变量的联合分布
一个随机变量是从样本空间到实数的映射。所谓的映射是人为创造的。可以有多个。
多个随机变量可以看作一个有多个分量的矢量。
所以定义在同一样本空间的多随机变量,是一个从样本空间到矢量的映射。
(从这个角度上说,单一随机变量是一个从样本空间到一个有一个分量的矢量的映射)
是不是可以把随机变量看作是从样本空间提取的一个特征。
假设:样本空间 Ω Ω Ω中每个结果等概率出现。而样本空间中共有8个结果,那么个每个结果的出现的概率都是1/8。
据此,我们可以计算联合概率。依据每个随机变量对应的结果数量。
对于 X = x , Y = y X=x,Y=y X=x,Y=y,我们寻找样本空间中满足这两个取值的所有元素。这些元素构成一个样本空间的子集,该子集的概率就是 P ( X = x , Y = y ) P(X=x,Y=y) P(X=x,Y=y)的联合概率。
p ( x , y ) = P ( X = x , Y = y ) p(x,y)=P(X=x,Y=y) p(x,y)=P(X=x,Y=y)称为联合概率质量函数(joint PMF, joint probability mass function)。
联合概率可以看做两个事件同时发生时的概率,事件A为 X = x X=x X=x,事件B为 Y = y Y=y Y=y,即 P ( A ∩ B ) P(A∩B) P(A∩B)。
-
连续随机变量的联合分布
单个连续随机变量的概率是变量在某个区间(某段线的“长度”)取值的概率。
多个连续随机变量的概率,是这多个随机变量在多维区间的概率。
在单变量情况下,概率是一个“面积”,是由区间的“长度”和密度函数(一条曲线)围成的。这里的“体积”是二维区间的“面积”和密度函数(一个曲面)围成的。我们可以使用联合概率密度函数(joint PDF, joint probability density function)来表达多随机变量的分布。
-
边缘概率(marginal distribution)
联合分布包含了多个随机变量的分布信息。从联合分布中,提取出任意一个单一随机变量的分布,也就是所谓的边缘分布(marginal distribution)。
-
离散随机变量,边缘概率质量函数(marginal pmf):
p X ( x ) = ∑ a l l    y p ( x    ,    y ) p Y ( y ) = ∑ a l l    ,    x p ( x    ,    y ) p_X(x)=\sum_{all \; y}p(x\; , \;y)\\p_Y(y)=\sum_{all \; , \; x}p(x\; , \; y) pX(x)=ally∑p(x,y)pY(y)=all,x∑p(x,y) -
连续随机变量,边缘密度函数(marginal pdf, marginal probability density function)可以定义为:
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f_X(x)=\int^{+ \infty}_{- \infty}f(x,y)dy fX(x)=∫−∞+∞f(x,y)dy
-
-
条件分布
与事件的条件概率类似,假设 p Y ( y ) ≠ 0 pY(y)≠0 pY(y)̸=0,在 Y = y Y=y Y=y的条件下,随机变量X取值为x的概率定义为:
- 离散随机变量
p ( x ∣ y ) = p ( x , y ) p Y ( y ) p(x|y)=\frac{p(x,y)}{p_Y(y)} p(x∣y)=pY(y)p(x,y)
- 连续随机变量
f ( x ∣ y ) = f ( x ∣ Y = y ) = f ( x , y ) f Y ( y ) f(x|y)=f(x|Y=y)=\frac{f(x,y)}{f_Y(y)} f(x∣y)=f(x∣Y=y)=fY(y)f(x,y)
-
独立随机变量
正如事件之间可以相互独立一样,随机变量之间也可以相互独立。当X独立于Y时,我们可以相像,Y的取值,将不影响X的概率。也就是说
p ( x ∣ y ) = p X ( x ) p(x|y)=p_X(x) p(x∣y)=pX(x)
这意味着,当且仅当- 离散随机变量
p ( x , y ) = p X ( x ) p Y ( y ) p(x,y)=p_X(x)p_Y(y) p(x,y)=pX(x)pY(y)
相互独立,意味着每个随机变量对应的可能结果彼此不相同。
- 连续随机变量
f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)
时,X和Y相互独立。