本文将对统计学中常见的四种分布进行总结,包括二项分布、几何分布、泊松分布、正态分布。
在此之前,首先来看一下统计学中的一些基本概念:
『概率分布』
首先,什么是概率分布?
要明白概率分布,首先考虑两个问题:
- 数据有哪些类型?
- 数据长什么样?
先回答第一个问题,数据类型有两种,包括离散数据和连续数据,这在统计学中叫做随机变量,所以分为离散型随机变量和连续型随机变量。比如:
- 掷硬币的结果就是离散型随机变量,其取值是有限的;
- 人的身高就是连续型随机变量,变量取值有无限个,无法一一列举,只能对某一区间内的概率进行衡量。
接下来回答第二个问题,什么是分布呢?其实就是数据在统计图中的形状,显示了随机变量的集中情况。
现在,我们知道了两件事:
- 数据类型有两种:离散数据类型、连续数据类型
- 分布:数据在统计图中的形状
那么什么是概率呢?概率就是上面两个东西(数据类型+分布)组合起来的表现手段。
概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴对应数值的概率。
显然,根据数据类型的不同,概率分布分为两种:离散概率分布,连续概率分布。
那么,问题来了,为什么我们要关心数据类型呢?
因为数据类型会影响求概率的方法。
- 对于离散概率分布,我们可以取得特定值的概率,例如:抛掷一枚均匀的硬币,正面向上的概率就是 1 2 1 \over 2 21。
- 对于连续概率分布,我们无法精确给出每一个特定值的概率,只能得到数据在某个范围内的概率。
现在,我们知道什么是概率分布了,可是整出这么个玩意儿有啥用呢?
这是因为,在统计学家开始研究概率分布时,他们发现,有几种形状反复出现,于是就研究它们的规律,根据这些规律来解决特定条件下的问题。
这里参考文献[1]里举了一个例子,就是高考时,我们总会准备一些万能模板,任何作文题目来了,都可以套用该模板。
同样,记住概率里这些特殊分布的好处就是:
下次遇到类似的问题,你就可以直接套用这些“模板”(特殊的概率分布)来解决问题。
这个类比很直观地就帮我们理解了概率分布的用途。
既然这样,现在我们就来学习一些“万能模板”,也就是常用的四种概率分布,包括离散型和连续型,其中:
- 离散型概率分布:二项分布、几何分布、泊松分布
- 连续型概率分布:正态分布
『期望与方差』
在进入正题之前,先来回顾另外两个概念:期望和方差。
统计学家为了描述随机变量的一些特征,定义了几种统计量来表示随机变量的总体分布情况,其中最常用的是这两个:
- 期望是试验中可能取值的概率乘以其取值的总和,反映随机变量平均取值的大小,数学期望也称为“均值”。
求期望的话:
- 如果是离散型随机变量就是以概率为权的加权平均,即: E ( X ) = ∑ i = 1 ∞ a i p i E(X)=\sum^{\infty}_{i=1}a_ip_i E(X)=∑i=1∞aipi
- 如果是连续型随机变量,那就是以积分代替求和,即: E ( X ) = ∫ − ∞ ∞ x f ( x ) d x E(X) = \int^{\infty}_{-\infty}xf(x)dx E(X)=∫−∞∞xf(x)dx。
- 方差是衡量随机变量或一组数据离散程度的度量。
求方差的话,就是下面的公式:
V a r ( X ) = E ( X − E X ) 2 Var(X) = E(X - EX)^2 Var(X)=E(X−EX)2
简单来说,期望反映数据的平均取值,方差反映数据的散布程度。
接下来总算进入正题了,我们来谈谈四种常见的概率分布:
为了直观理解这几种分布,每种概率分布我们都将会考虑以下几个问题:
- ××分布有啥用?
- 如何判断是不是××分布?
- ××分布如何计算概率?
『二项分布』
1、二项分布有啥用?
当你遇到某个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。
例如:如果你买了5家公司的股票,为了保底和计算投入进去多少钱,你想知道只要其中3个股票能帮你赚到钱(成功的次数)的概率多大,那么这时候就可以用二项分布来计算。
2、如何判断是不是二项分布?
首先,既然叫做二项分布,那么二项就代表事件只有两种可能性,要么成功,要么失败。生活中像这种事件很多,比如抛硬币只有正反两面,考试有及格和不及格。
二项我们明白了,那到底什么是二项分布呢?其实只要符合以下四个特点就可以认为是二项分布:
- 做某件事的次数(也叫试验次数)是固定的,用n表示;
例如:抛硬币3次,投资5支股票- 每一次事件都只有两个可能的结果(成功或失败);
例如:每一次抛硬币有2个结果:正面表示成功,反面表示失败。- 每一次成功的概率都是相等的,成功的概率用p表示;
例如:每一次抛硬币正面朝上的概率都是1/2。- 你感兴趣的是成功x次的概率是多少,这样就可以用二项分布的公式快速计算出来了。
根据这四个特点,我们就知道抛硬币是一个典型的二项分布。
3、二项分布如何计算概率?
二项分布的概率公式为:
p ( X = k ) = C n k p k ( 1 − p ) n − k p(X=k) = C^k_n p^k(1-p)^{n-k} p(X=k)=Cnkpk(1−p)n−k
除了概率分布,我们还要知道下面两个统计量:
期望:
E
(
x
)
=
n
⋅
p
E(x) = n·p
E(x)=n⋅p
方差:
σ
2
=
n
p
(
1
−
p
)
\sigma^2 = np(1-p)
σ2=np(1−p)
知道这个期望有啥用呢?
做任何事情之前,知道预期结果肯定对你后面的决策有帮助。
比如:你抛硬币5次,每次概率是1/2,那么期望E(x)=5*1/2=2.5次,也就是有大约3次你可以抛出正面。
再比如:你投资的5支股票,假设每支股票帮你赚到钱的概率是80%,那么期望 E ( x ) = 5 ∗ 0.8 = 4 E(x)=5 * 0.8=4 E(x)=5∗0.8=4,也就是预期会有4只股票投资成功帮你赚到钱。
最后我们来看看这个期望是怎么得到的,简单推导一下:
由离散随机变量的期望公式可以得到:
E
(
x
)
=
∑
k
=
0
n
k
⋅
C
n
k
⋅
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
k
⋅
C
n
k
⋅
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
k
⋅
n
!
k
!
(
n
−
k
)
!
⋅
p
k
(
1
−
p
)
n
−
k
=
∑
k
=
1
n
n
(
n
−
1
)
!
(
k
−
1
)
!
(
n
−
k
)
!
⋅
p
k
(
1
−
p
)
n
−
k
=
n
p
⋅
∑
k
=
1
n
(
n
−
1
)
!
(
k
−
1
)
!
(
n
−
k
)
!
⋅
p
k
−
1
(
1
−
p
)
n
−
k
令
k
−
1
=
a
,
n
−
1
=
b
=
n
p
⋅
∑
a
=
0
b
b
!
a
!
(
b
−
a
)
!
⋅
p
a
(
1
−
p
)
b
−
a
=
n
p
⋅
∑
a
=
0
b
C
a
b
⋅
p
a
(
1
−
p
)
b
−
a
=
n
p
\begin{aligned} E(x) & = \sum^n_{k=0}k · C^k_n · p^k(1-p)^{n-k} \\ & = \sum^n_{k=1}k · C^k_n · p^k(1-p)^{n-k} \\ & = \sum^n_{k=1}k · {{n!} \over {k! (n-k)!}} · p^k(1-p)^{n-k} \\ & = \sum^n_{k=1}{{n(n-1)!} \over {(k-1)! (n-k)!}} · p^k(1-p)^{n-k} \\ & = np · \sum^n_{k=1}{{(n-1)!} \over {(k-1)! (n-k)!}} · p^{k-1}(1-p)^{n-k} \\ & 令 k-1=a, n-1=b \\ & = np · \sum^b_{a=0}{{b!} \over {a! (b-a)!}} · p^{a}(1-p)^{b-a} \\ & = np · \sum^b_{a=0}C^b_a · p^a(1-p)^{b-a} \\ & = np \end{aligned}
E(x)=k=0∑nk⋅Cnk⋅pk(1−p)n−k=k=1∑nk⋅Cnk⋅pk(1−p)n−k=k=1∑nk⋅k!(n−k)!n!⋅pk(1−p)n−k=k=1∑n(k−1)!(n−k)!n(n−1)!⋅pk(1−p)n−k=np⋅k=1∑n(k−1)!(n−k)!(n−1)!⋅pk−1(1−p)n−k令k−1=a,n−1=b=np⋅a=0∑ba!(b−a)!b!⋅pa(1−p)b−a=np⋅a=0∑bCab⋅pa(1−p)b−a=np
『几何分布』
几何分布其实跟二项分布十分相似,在四个特点中只有一点不同,下面我们仍旧从三个问题出发来了解几何分布:
1、几何分布有啥用?
如果你需要知道经过多次试验能取得第一次成功的概率,那么就需要用到几何分布。
2、如何判断是不是几何分布?
只要符合下面4个特点就可以判别你做的事情是就是几何分布了:
- 做某事件次数(也叫试验次数)是固定的,用n表示;
例如:抛硬币3次- 每一次事件都有两个可能的结果(成功或失败);
例如:每一次抛硬币有2个结果:正面表示成功,反面表示失败。- 每一次“成功”的概率都是相等的,成功的概率用p表示;
例如:每一次抛硬币正面朝上的概率都是1/2。- 你感兴趣的是,做n次这个事情,取得第1次成功的概率是多大;
例如:你在玩抛硬币的游戏,想知道抛5次硬币,只有第5次(就是第1次成功)正面朝上的概率是多大。
正如上面看到的,几何分布和二项分布只有第4点,也就是解决问题的目的不同。
3、几何分布如何计算概率?
用下面这个公式就可以了:
p
(
n
)
=
(
1
−
p
)
n
−
1
p
p(n) = (1-p)^{n-1}p
p(n)=(1−p)n−1p
p为成功概率,即:为了在第n次尝试取得第1次成功,首先你要失败(n-1)次。
下面来看看两个统计量:
期望:
E
(
x
)
=
1
p
E(x)={1\over p}
E(x)=p1
标准差:
σ
=
(
1
−
p
)
p
2
\sigma = {(1 - p) \over p^2}
σ=p2(1−p)
『泊松分布』
首先,仍旧通过三个问题来了解一下泊松分布:
1、泊松分布有啥用?
如果你想知道某个时间范围内,发生某件事情x次的概率是多大?这时候就可以用泊松分布轻松搞定。比如:一天内中奖的次数,一个小时内通过的车辆的个数,一个月内某机器损坏的次数等。
那么,知道这些概率能做什么呢?
当然是根据概率的大小来做出决策了。比如你搞了个抽奖活动,最后算出来一天内中奖10次的概率都超出了90%,然后顺便算下期望,再和活动成本比一下,发现赔了不少钱,那这个活动就别搞了。
另外,泊松分布的形状会随着平均值的不同而有所变化,无论一周内有多少人能赢得彩票,还是每分钟有多少人会打电话到呼叫中心,泊松分布都可以告诉我们其概率大小。
2、如何判断是不是泊松分布?
符合以下三个特点就是泊松分布:
(1)事件是独立事件;
(2)在任意相同的时间范围内,事件发生的概率相同;
(3)你想知道某个时间范围内,发生某件事情x次的概率是多大。
3、泊松分布如何计算概率?
首先,假设
X
X
X为每个小时内通过的车辆数,
λ
\lambda
λ为给定时间范围内事件发生的平均次数,即期望为
λ
\lambda
λ,现在用二项分布去近似,得到:
E
(
X
)
=
λ
=
n
p
E(X) = \lambda = np
E(X)=λ=np
为什么可以用二项分布去近似呢?这么来理解,假设每个小时内通过车辆数的期望值为: E ( X ) = λ    c a r s / h o u r = 60 m i n / h o u r ⋅ λ 60 c a r s / m i n E(X) = \lambda \; cars / hour = 60 min/hour · {\lambda \over 60} cars / min E(X)=λcars/hour=60min/hour⋅60λcars/min
其中 n = 60 m i n / h o u r , p = λ 60 c a r s / m i n n = 60 min/hour, p = {\lambda \over 60} cars / min n=60min/hour,p=60λcars/min,也就是将一个小时分成60分钟,每分钟当作一次事件,有车通过就是成功,没车通过就是失败,因此可以用二项分布近似。
对于二项分布:
P
(
X
=
k
)
=
C
60
k
⋅
(
λ
60
)
a
(
1
−
λ
60
)
60
−
k
P(X=k) = C^k_{60} · ({\lambda \over 60})^a(1-{\lambda \over 60})^{60-k}
P(X=k)=C60k⋅(60λ)a(1−60λ)60−k
这么来近似还是有些问题,如果每分钟通过不止一辆车,就有问题了,因此可以分更多的区间,比如划分为秒:
P
(
X
=
k
)
=
C
3600
k
⋅
(
λ
3600
)
a
(
1
−
λ
3600
)
3600
−
k
P(X=k) = C^k_{3600} · ({\lambda \over 3600})^a(1-{\lambda \over 3600})^{3600-k}
P(X=k)=C3600k⋅(3600λ)a(1−3600λ)3600−k
划分到秒也有可能出现同样的问题,这样就需要不断地去划分,数字越来越大,一直下去就能得到泊松分布。
这样我们可以知道,泊松分布实际来自二项分布。
二项分布就是抛硬币,这是一切的源头,后面的正态分布虽然是连续型概率分布,同样也可以用二项分布去近似。
在介绍泊松分布的推导之前,首先要知道两个公式:
lim
n
→
+
∞
(
1
+
a
x
)
x
=
e
a
\lim_{n \to +\infty}(1 + {a \over x})^x = e^a
n→+∞lim(1+xa)x=ea
x ! ( x − k ) ! = x ( x − 1 ) ( x − 2 ) . . . ( x − k + 1 ) {x! \over (x-k)!} = x(x-1)(x-2)...(x-k+1) (x−k)!x!=x(x−1)(x−2)...(x−k+1)
接下来,简单做下泊松分布的推导:
由前面的分析可知,泊松分布可以由二项分布近似,当n趋于无穷大时,事件成功的概率为
λ
n
\lambda \over n
nλ,故:
P
(
X
=
k
)
=
lim
n
→
+
∞
C
n
k
⋅
(
λ
n
)
a
(
1
−
λ
n
)
n
−
k
=
lim
n
→
+
∞
n
!
(
n
−
k
)
!
k
!
(
λ
n
)
k
(
1
−
λ
n
)
n
−
k
=
lim
n
→
+
∞
n
(
n
−
1
)
.
.
.
(
n
−
k
+
1
)
n
k
⋅
λ
k
k
!
⋅
(
1
−
λ
n
)
n
⋅
(
1
−
λ
n
)
−
k
=
1
⋅
λ
k
k
!
⋅
lim
n
→
+
∞
(
1
−
λ
n
)
n
⋅
lim
n
→
+
∞
(
1
−
λ
n
)
−
k
=
λ
k
k
!
⋅
e
−
λ
\begin{aligned} P(X=k) & = \lim_{n \to +\infty} C^k_n · ({\lambda \over n})^a(1-{\lambda \over n})^{n-k} \\ & = \lim_{n \to +\infty} {n! \over (n-k)!k!}({\lambda \over n})^k (1-{\lambda \over n})^{n-k} \\ & = \lim_{n \to +\infty} {n(n-1)...(n-k+1)\over n^k}·{\lambda^k \over k!}·(1-{\lambda \over n})^{n}·(1-{\lambda \over n})^{-k} \\ & = 1·{\lambda^k \over k!}·\lim_{n \to +\infty} (1-{\lambda \over n})^{n}·\lim_{n \to +\infty}(1-{\lambda \over n})^{-k} \\ & = {\lambda^k \over k!}·e^{-\lambda} \end{aligned}
P(X=k)=n→+∞limCnk⋅(nλ)a(1−nλ)n−k=n→+∞lim(n−k)!k!n!(nλ)k(1−nλ)n−k=n→+∞limnkn(n−1)...(n−k+1)⋅k!λk⋅(1−nλ)n⋅(1−nλ)−k=1⋅k!λk⋅n→+∞lim(1−nλ)n⋅n→+∞lim(1−nλ)−k=k!λk⋅e−λ
这里推导的结果就是泊松分布的概率公式。
举个例子,比如:你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为7的概率是多少?
此时 x = 7 , λ = 5 x=7,\lambda=5 x=7,λ=5(区间内发生的平均次数),代入公式求出概率为10.44%。
另外,泊松分布还有一个重要性质,它的数学期望和方差相等: E ( X ) = V a r ( X ) = λ E(X) = Var(X) = \lambda E(X)=Var(X)=λ。
『正态分布』
1、正态分布有啥用?
正态分布又叫高斯分布,是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
那么正态分布可以用在哪些地方呢?
- 估计概率分布: 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内的概率。
- 正态分布是许多统计方法的理论基础: 检验、方差分析、相关和回归分析等多种统计方法均要求分析的指标服从正态分布。许多统计方法虽然不要求分析指标服从正态分布,但相应的统计量在大样本时近似正态分布(中心极限定理),因而大样本时这些统计推断方法也是以正态分布为理论基础的(后面将会介绍)。
2、如何判断是不是正态分布?
我们知道正态分布是自然界中广泛存在的一种分布,对不明确的分布,我们仍可以采用正态分布来近似,另外,在大样本条件下,我们可以采用中心极限定理,认为采样分布近似服从正态分布。
3、正态分布如何计算概率?
首先,看一下正态分布的公式:
p
(
x
)
=
1
σ
2
π
e
−
1
2
(
x
−
μ
σ
)
2
p(x) = {1 \over \sigma \sqrt{2\pi}}e^{-{1 \over 2}({x-\mu \over \sigma})^2}
p(x)=σ2π1e−21(σx−μ)2
其中: z = x − μ σ z = {x - \mu \over \sigma} z=σx−μ称为标准z分数,其实就是对x标准化;
然后看一下正态分布的图像:
类似于前面的泊松分布,正态分布也可以通过二项分布近似,如下图:
图中,对于抛硬币问题,如果硬币为正面向右移动一步,硬币为反面向左移动一步,硬币最终的位置服从正态分布(虽然抛硬币事件本身服从二项分布,但是叠加之后最终结果服从正态分布),如图为二项分布与正态分布的对比图。
注:
其实这里叠加的结果也就是伯努利分布,根据中心极限定理,样本均值的抽样分布当然服从正态分布。
解释:
- 对于抛硬币问题,硬币为正面的概率为0.5,该事件记做1(向右移动一步),硬币为反面的概率也为0.5,该事件记做-1(向左移动一步),随机抛掷10次,相当于抽样10次,做了10次伯努利试验,最终位置是10次实验的均值,满足中心极限定理,所以一定是正态分布。
- 最早中心极限定理讨论的重点就是,n重伯努利试验中,事件A出现的次数渐近于正态分布的问题。
对于上图,调整正态分布的参数,我们会发现:
- 改变均值使得图像左右移动;
- 减小标准差,即使数据偏离均值的程度减小,让数据点更集中,则概率密度曲线变得瘦高;
- 相反,增大标准差,概率密度曲线则变得矮胖。
上图中,第一个图为概率密度函数,第二个图为累积分布函数,我们可以发现累积分布函数类似于sigmoid函数。
从正态分布的角度来解释sigmoid函数:
在假定某个事件的概率分布符合正态分布的规律后,要分析其可能发生的概率,就要看它的积分形式。但计算正态分布的积分函数,计算代价非常大,而sigmoid函数和正态分布函数的积分形式的形状非常类似,却由于其公式简单,计算量非常的小,因此可以被选为替代函数。
『大数定律』
对于一个概率分布,n为采样的样本数,当n趋于无穷大的时候,样本均值趋向于期望值。
  
\;
  
\;
参考:
[1] 猴子:一文秒懂概率分布