数据科学你得知道的几种分布
先说两个小知识
- 概率密度函数:概率密度函数一般形容连续随机变量的分布
-
(和分布律一起。分布律是形容离散随机变量的分布的,但一般不怎么提,被密度函数代表了)
- 分布函数:分布函数又称累计概率密度函数(他确实也是概率密度的累积),但并不能直接体现随机变量的整体分布。
-
它叫分布函数是因为作为概率密度的累积,我们可以通过分布函数上的两个点求出在这之间随机变量发生的概率。
一、正态分布
1. 误差
正态分布的诞生源于对误差的描述
最早,人们对误差分布的假设是线性的,由函数 y = x + 1 , x ∈ [ − 1 , 0 ] y = x + 1, x \in [-1, 0] y=x+1,x∈[−1,0] 和 y = 1 − x , x ∈ [ 0 , 1 ] y = 1 - x, x \in [0, 1] y=1−x,x∈[0,1] 构成,误差被限制在区间 [ − 1 , 1 ] [-1,1] [−1,1]之间
随后,大量的数据表明,在区间 [ − 1 , 1 ] [-1,1] [−1,1]外,虽然误差存在的可能很小很小,但它确实存在,所以人们将假设修订为基于函数 y = e − x y = e^{-x} y=e−x 的概率密度函数
后来,人们发现,这样的假设依然不符合统计的实际情况,因为误差大小趋紧于0时,其产生的概率并没有像上一个假设一样下降的那么快(很明显,是概率密度函数的凹凸性,也就是二阶导不符合实际),所以人们进一步将概率密度函数修订为 y = e − x 2 y = e^{-x^2} y=e−x2 的
紧接着,考虑到概率累积总和应该为数值1,所以人们对该函数积分得到 2 π \sqrt{2\pi} 2π ,并函数的分母上除以该数值以达到的“概率累积总和应该为数值1”的要求。
这样,我们就得到了标准化的用来描述误差的概率密度函数。在后世的统计中,它于实际情况是符合的。
2、位置参数期望与形状参数方差
通过假设得到的形容误差的概率密度函数并不能直接用来描述误差,因为显然,误差的性质和它存在的问题也直接相关。
误差自身的主要性质只有一个,那就大小。我们将误差的大小,与相对标准的偏离程度,和标准的指标统一起来,得到了可以直接描述误差的概率密度函数。
其中,这里的标准在统计学中被称为期望,而偏离程度通常采用方差来衡量。
所以,确定了正态分布的两个参数期望
μ
\mu
μ 和 方差
σ
2
\sigma^2
σ2 ,也就能确定整个分布的函数。正态分布的概率密度函数为
y
=
e
−
(
x
−
μ
)
2
2
σ
2
2
π
σ
y = \cfrac{e^{-\frac{(x-\mu)^2}{2\sigma^2}}}{\sqrt{2\pi}\sigma}
y=2πσe−2σ2(x−μ)2
在函数中,因为期望 μ \mu μ (也就是描述误差的应用背景中的“标准”),仅影响函数的位置,所以它被称为“位置参数”;类似的,因为参数 σ 2 \sigma^2 σ2 影响函数的形状,所以它也被称为“形状参数”
3、中心极限定理
真正让正态分布出名的显然不是它对误差的描述,而是中心极限定理。
中心极限定理从数理上证明了误差服从正态分布。其内容可大致描述为,一系列相互独立的随机变量 X 1 , X 2 , X 3 , . . . , X n X_1, X_2, X_3, ... , X_n X1,X2,X3,...,Xn 在n足够大时(同时需满足一些数理条件),它们的和将近似服从正态分布
显然,将背景环境量化为一系列相互独立,将它们的和视作背景环境对理论问题的影响,我们可以得到,这种影响,也就是误差,是服从正态分布的
同时,中心极限定理赋予了正态分布真正的背景,就是一系列的随机变量之和
二、伯努利分布(二项分布)
1、背景
二项分布的背景是n重伯努利试验,即:
对 只有两个可能结果的 A A A和 A ˉ \bar{A} Aˉ的试验E(伯努利试验),独立重复的进行n次
对于试验E,其结果服从(0—1)分布。我们知道,(0—1)分布只有一个参数,即产生1的概率p(或产生0的概率q=1-p)
所以,二项分布作为试验E的n次独立重复,其结果的分布的函数也只有两个参数,即n于p。我们将“随机变量X服从参数为n,p的二项分布”记为 X ∼ B ( n , p ) X\sim B(n,p) X∼B(n,p)
2、分布律
二项分布的分布律为 P ( X = k ) = C n k p k q n − k P(X=k) = C_n^k p^k q^{n-k} P(X=k)=Cnkpkqn−k 其中 q = 1 − p q = 1 - p q=1−p
我们注意到 C n k p k q n − k C_n^k p^k q^{n-k} Cnkpkqn−k 正好是二项式 ( p + q ) n (p + q)^n (p+q)n的展开式中出现 p k p^k pk 的那一项,这是该分布名字的由来
除此之外,二项分布在不考虑其结果的顺序时,可用于对部分统计量的似然估计。例如,在保序回归的背景中,我们通过对服从二项分布的目标值进行似然估计,推导出来PAVA算法
三、均匀分布
若连续型随机变量X具有概率密度 f ( x ) = 1 b − a , a < x < b f(x) =\cfrac{1}{b-a}, a < x < b f(x)=b−a1,a<x<b , 则称X在 ( a , b ) (a, b) (a,b)区间服从均匀分布,记为 X ∼ U ( a , b ) X\sim U(a,b) X∼U(a,b)