概率分布
期望
如果 ∫ ∞ −∞ |x|f(x)dx<∞ ,那么 E(x)=∫ ∞ −∞ xf(x)dx ;如果积分发散,则期望不存在(无意义)。
函数的期望 如果 Y=g(X) ,对于离散变量 E(Y)=∑ x g(x)p(x) ,对于连续变量 E(Y)=∫ ∞ −∞ g(x)f(x)dx 。注意函数的期望不一定等于期望的函数,即 E[g(x)]≠g[E(x)] 。如果X和Y是相互独立的随机变量,g和h是固定的函数,那么
方差是一种特殊的期望
伯努利分布
伯努利随机变量的取值只有两个:0和1。
二项分布
令 x 1 ,x 2 ,...,x n 是相互独立的伯努得随机变量,那么
多项分布
二项分布每次实验结果只有2种,如果有多种那就变成了多项分布。设一共有r种结果,每种结果出现的概率依次是 p 1 ,p 2 ,...p r ,进行发n次实验,第i种结果出现的次数为 n i ,这样的概率是
几何分布
连续若干次相互独立的伯努利试验,第g次才成功。则
负二项分布
负二项分布是几何分布的一般化。连续若干次相互独立的伯努利试验,直到成功了r次为止,共进行了k次试验。
超几何分布
共有n个球,其中黑球r个,白球n-r个。从中取出m个球,X表示抽到黑球的个数。
自然常数e
下面的几种概率密度函数中都包含e,所以我们先来剖析一下e到底是什么。
自然常数e和圆周率 π 是常见的超越数。
来看几个跟e有关的公式。
利用公式 (13) 我们来具体说下e到底是什么。假设一个细胞经过1个单位时间分裂成两个细胞。即经过1个单位时间后细胞数目比原先多了1倍,经过1/2个单位时间后细胞数目比原先多了1/2倍,经过1/3个单位时间后细胞数目比原先多了1/3倍,经过1/n个单位时间后细胞数目比原先多了1/n倍。则我们用下面的公式计算单位时间后的细胞数目是当前的几倍:
(1+11 ) 1
现在假设一个细胞还是需要1个单位时间才能分裂成两个细胞,只是经过1/2单位时间后,正在分裂中的细胞又开始新的分裂过程。1个单位时间可以分成前后两个阶段,每个阶段末的细胞数目都是阶段初的 1+12 倍。我们用下面的公式计算单位时间后的细胞数目是当前的几倍:
(1+12 ) 2
如果经过1/n个单位时间后细胞就具有分裂能力,则我们用下面的公式计算单位时间后的细胞数目是当前的几倍:
当细胞具有分裂能力的时间间隔足够短,即 n→∞ 时,公式 (17) 就等于e。由此得出:e是单位时间内持续的翻番增长所能达到的极限值。
泊松分布
当满足以下前提条件时,泊松变量表示单位时间内发生的次数。
- 不同子区间内了生与否相互独立
- 每个子区间发生的概率相同
- 事件不会同时发生
泊松分布的期望和方差都是 λ 。
泊松过程: S 1 ,S 2 ,...S N 是S的互不相交的子集,这些子集上发生的事件数 N 1 ,N 2 ,...N 3 是相互独立的随机变量,且服从参数为 λ|S 1 |,λ|S 2 |...λ|S N | 的泊松分布,即期望与区间大小成正比例。
如果X服从参数为 λ 的泊松分布,Y服从参数为 μ 的泊松分布,且X和Y相互独立,那么X+Y服从参数为 λ+μ 的泊松分布。
Poisson(λ) 分布可以看成是二项分布 B(n,p) 在 np=λ,n→∞ 条件下的极限分布。
指数分布
指数分布常用来描述生命周期或等待时间,变量一般用t表示。
密度函数 f(t)={λe −λt ,0, ift≥0ift<0
λ 越大,密度函数下降得越快。
密度积累函数 F(t)=P(T<t)=1−e −λt ,即
指数分布的期望是 1λ 。
正态分布
密度函数
这里给出一种生成正态随机变量的方法。首先独立生成[0,1]上的均匀随机变量 U 1 和 U 2 ,则 X=−2logU 1 − − − − − − − √ cos(2πU 2 )和Y=−2logU 1 − − − − − − − √ sin(2πU 2 ) 是相互独立的标准正态随机变量,这种方法叫做极化方法(polar method)。
中心极限定理
令 X 1 ,X 2 ,⋯ 是均值为0方差为 σ 2 的独立随机变量序列,具有相同的分布函数F,矩生成函数M在零点附近有定义,令
粗略来看中心极限定理是说,如果一个随机变量是许多独立同分布的随机变量之和,那么它就近似服从正态分布。所以说正态分布是分布之王。
因为二项随机变量是独立的伯努力随机变量之和,由中心极限定理得,二项分布可用正态分布来近似。当 p=12 时近似得最好。常用的经验方法是np>5且n(1-p)>5时,近似比较合理。
柯西分布
如果X和Y是独立的标正态随机变量,则 Z=YX 服从柯西分布。
伽马分布
先介绍下伽马函数: Γ(x)=(x−1)!=∫ ∞ 0 μ x−1 e −μ dμ,x>0
伽马函数把阶乘运算从整数拓展到了实数。
不仅如此,利用伽马函数还可以求一般函数的分数阶导数。我们看一下 x n 的各阶导数:
1阶导数-- nx n−1
2阶导数-- n(n−1)x n−2
k阶导数-- n(n−1)⋯(n−k+1)x n−k =n!(n−k)! x n−k =Γ(n+1)Γ(n−k+1) x n−k
x n 的分数阶导数就可以用伽马函数来计算。对于一般函数f(x)可以通过Taylor展开式把它表示成幂级数的形式,借助于 x n 的分数阶导数就可以求出任意函数的分数阶导数。
伽马密度函数
任何非负随机变量的密度函数都可以用伽马密度函数来模拟,就看 α 和 λ 怎么拟合了。
α=1 时伽马密度为指数密度,伽马密度的期望是 αλ ,所以指数分布的期望是 1λ 。
参数为 λ 的n个独立指数随机变量的和服从参数为n和 λ 的伽马分布,又因为泊松过程中两个连续随机变量发生的时间间隔服从指数分布,因此在泊松过程中,n个连续事件发生的时间间隔服从伽马分布。
贝塔分布
Beta分布的概率密度图像也是个百变星君,调整 α 和 β 它可以变成凸的、凹的、单调上升的、单调下降的,可以是曲线,也可以是直线。均匀分布也是一种特殊的Beta分布。
设x的密度函数为f(x),累积密度函数为F(x), X (1) <X (2) <X⋯<X (n) 为顺序统计量,则由概率的乘法定理很容易得出 X (k) 的密度是:
卡方分布
X 1 ,X 2 ,⋯,X n 是独立的标准正态随机变量,则 X 2 1 +X 2 2 +⋯+X 2 n 是自由度为n的卡方分布,记为 χ 2 n 。
如果U、V独立,且 U∼χ 2 n ,V∼χ 2 m ,那么 U+Y∼χ 2 m+n
自由度为n的卡方分布是 α=n2 和 λ=12 的伽马分布,由公式 (25) 可推出卡方密度
t分布
如果 Z∼N(0,1),U∼χ 2 n ,且Z和U独立,则 ZU/n √ 是自由度为n的t分布。
F分布
如果U和V是自由度分别为m和n的独立卡方随机变量,
由t分布的定义易证: t 2 n ∼F 1,n