统计分布
本篇文章整理总结了《统计机器学习导论》([日] 衫山将)中关于概率分布的部分。(有一些本人也还没搞懂,但是也先记录下来了。)
因为内容比较多,所以难免会有错误的地方,欢迎各位指正,之后我会仔细修改!
概率论知识
概率的定义
- 非负性: 0 ≤ P ( A ) ≤ 1 0\le P(A)\le 1 0≤P(A)≤1。
- 归一性:对于整个样本空间空间 Ω , 有 P ( Ω ) = 1 \Omega,有P(\Omega)=1 Ω,有P(Ω)=1。
- 可加性:对于一系列互不相容的事件 A 1 , A 2 , A 3 , ⋯ A_1,A_2,A_3,\cdots A1,A2,A3,⋯ P ( A 1 ∪ A 2 ∪ A 3 ⋯ ) = P ( A 1 ) + P ( A 2 ) + P ( A 3 ) + ⋯ P(A_1\cup A_2\cup A_3\cdots)=P(A_1)+P(A_2)+P(A_3)+\cdots P(A1∪A2∪A3⋯)=P(A1)+P(A2)+P(A3)+⋯
名词的定义
- 方差: V [ x ] = E [ ( x − E [ x ] ) 2 ] V[x]=E[(x-E[x])^2] V[x]=E[(x−E[x])2]
- 标准差: D [ x ] = V [ x ] D[x]=\sqrt{V[x]} D[x]=V[x]
- 偏度: E [ ( x − E [ x ] ) 3 ] D [ x ] 3 \frac{E[(x-E[x])^3]}{D[x]^3} D[x]3E[(x−E[x])3]
- 峰度: E [ ( x − E [ x ] ) 4 ] D [ x ] 4 \frac{E[(x-E[x])^4]}{D[x]^4} D[x]4E[(x−E[x])4]
- K阶中心距: V k = E [ ( x − E [ x ] ) k ] V_k=E[(x-E[x])^k] Vk=E[(x−E[x])k]
- K阶原点距: U k = E [ x k ] U_k=E[x^k] Uk=E[xk]
- 期望: E [ x ] E[x] E[x]
- 矩阵母函数:
M x ( t ) = E [ e t x ] = { ∑ x e t x f ( x ) 离 散 型 ∫ x e e t f ( x ) d x 连 续 性 M_x(t)=E[e^{tx}]=\begin{cases}\sum_{x}e^{tx}f(x)\quad 离散型\\ \int_xe^{et}f(x)dx\quad 连续性\end{cases} Mx(t)=E[etx]={∑xetxf(x)离散型∫xeetf(x)dx连续性
e t x = 1 + ( t x ) + ( t x ) 2 2 ! + ( t x ) 3 3 ! + ⋯ e^{tx}=1+(tx)+\frac{(tx)^2}{2!}+\frac{(tx)^3}{3!}+\cdots etx=1+(tx)+2!(tx)2+3!(tx)3+⋯
M x ( t ) = E [ e t x ] = 1 + U 1 t + U 2 2 ! t 2 + ⋯ + U n n ! t n + ⋯ M_x(t)=E[e^{tx}]=1+U_1t+\frac{U_2}{2!}t^2+\cdots+\frac{U_n}{n!}t^n+\cdots Mx(t)=E[etx]=1+U1t+2!U2t2+⋯+n!Untn+⋯ - 特征函数: ϕ x ( t ) = E [ e i t x ] = M i x ( t ) = M x ( i t ) \phi_x(t)=E[e^{itx}]=M_{ix}(t)=M_x(it) ϕx(t)=E[eitx]=Mix(t)=Mx(it)
\quad
若期望、方差、偏度、峰度都已确定,那么概率分布会受到一定的约束。
∫
−
∞
∞
e
−
x
2
d
x
=
π
\int_{-\infty}^{\infty}e^{-x^2}dx=\sqrt{\pi}
∫−∞∞e−x2dx=π
\quad
正态分布的矩阵母函数
M
x
(
t
)
=
e
E
[
x
]
⋅
t
+
V
[
x
]
⋅
t
2
2
M_x(t)=e^{E[x]\cdot t+\frac{V[x]\cdot t^2}{2}}
Mx(t)=eE[x]⋅t+2V[x]⋅t2
概率分布的变换
- 随机变量 x x x,它的概率分布密度函数 f ( x ) f(x) f(x)定义在 χ \chi χ上, x x x可由 ϵ \epsilon ϵ变换得到,则 r r r的分布 g ( r ) = f ( ϵ ( r ) ) ∣ d x d r ∣ g(r)=f(\epsilon(r))|\frac{dx}{dr}| g(r)=f(ϵ(r))∣drdx∣。
- 将积分变量的变化从一维扩展到二维,
f
(
x
,
y
)
f(x,y)
f(x,y)在
χ
×
Y
\chi\times Y
χ×Y的积分可以用
x
=
g
(
r
,
θ
)
,
y
=
h
(
r
,
θ
)
x=g(r,\theta),y=h(r,\theta)
x=g(r,θ),y=h(r,θ),
定
义
域
χ
=
g
(
R
,
Θ
)
,
Y
=
h
(
R
,
Θ
)
定义域\chi=g(R,\Theta),Y=h(R,\Theta)
定义域χ=g(R,Θ),Y=h(R,Θ)。
∫ x ∫ y f ( x , y ) d x d y = ∫ r ∫ θ f ( g ( r , θ ) , h ( r , θ ) ) ∣ d e t ( J ) ∣ d r d θ \int_x\int_y f(x,y)dxdy=\int_r\int_\theta f(g(r,\theta),h(r,\theta))|det(J)|drd\theta ∫x∫yf(x,y)dxdy=∫r∫θf(g(r,θ),h(r,θ))∣det(J)∣drdθ
其中 J = ∣ ∂ x ∂ r ∂ x ∂ θ ∂ y ∂ r ∂ y ∂ θ ∣ J=\begin{vmatrix}\frac{\partial x}{\partial r}&\frac{\partial x}{\partial \theta}\\ \frac{\partial y}{\partial r}&\frac{\partial y}{\partial \theta}\end{vmatrix} J=∣∣∣∣∂r∂x∂r∂y∂θ∂x∂θ∂y∣∣∣∣
概率分布
连续均匀分布
\quad
表示在有限区间[a, b]上具有恒定的概率密度:
f
(
x
)
=
{
1
b
−
a
a
≤
x
≤
b
0
其
他
f(x)=\begin{cases} \frac{1}{b-a} &a\le x\le b\\ 0 &其他 \end{cases}
f(x)={b−a10a≤x≤b其他
- 期望和方差:
E [ x ] = a + b 2 且 V [ x ] = ( b − a ) 2 12 E[x]=\frac{a+b}{2}且V[x]=\frac{(b-a)^2}{12} E[x]=2a+b且V[x]=12(b−a)2
正态分布
\quad 正态分布时最重要的连续分布。对于 − ∞ < μ < ∞ , σ > 0 -\infty\lt \mu\lt\infty,\sigma\gt0 −∞<μ<∞,σ>0,正太分布由 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)表示,其密度函数为: f ( x ) = 1 σ 2 π e x p ( − ( x − μ ) 2 2 σ 2 ) f(x)=\frac{1}{\sigma\sqrt{2\pi}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) f(x)=σ2π1exp(−2σ2(x−μ)2)
- 期望和方差:
E [ x ] = μ 且 V [ x ] = σ 2 E[x]=\mu且V[x]=\sigma^2 E[x]=μ且V[x]=σ2
- 矩阵母函数:
M x ( t ) = e x p ( μ t + σ 2 t 2 2 ) M_x(t)=exp(\mu t+\frac{\sigma^2t^2}{2}) Mx(t)=exp(μt+2σ2t2)
伽马分布
\quad
泊松分布表示单位时间内平均发生
λ
\lambda
λ次事件在单位时间内发生
x
x
x次。
\quad
伽马分布表示事件发生
a
a
a次经过的时间
x
x
x,平均单位时间里发生
λ
\lambda
λ次。其概率密度函数为:
G
a
(
a
,
λ
)
=
f
(
x
)
=
λ
a
Γ
(
a
)
x
a
−
1
e
−
λ
x
,
x
≥
0
Ga(a,\lambda)=f(x)=\frac{\lambda^a}{\Gamma(a)}x^{a-1}e^{-\lambda x},x\ge0
Ga(a,λ)=f(x)=Γ(a)λaxa−1e−λx,x≥0
\quad
其中
Γ
(
a
)
=
∫
0
∞
x
a
−
1
e
−
x
d
x
\Gamma(a)=\int_0^{\infty}x^{a-1}e^{-x}dx
Γ(a)=∫0∞xa−1e−xdx
- ∫ − ∞ ∞ f ( x ) d x = λ a Γ ( a ) ∫ 0 ∞ x a − 1 e − λ x d x = λ a Γ ( a ) ∫ 0 ∞ ( y λ ) a − 1 e − y 1 λ d y = 1 Γ ( a ) ∫ 0 ∞ y a − 1 e − y d y = 1 \begin{aligned}\int_{-\infty}^{\infty}f(x)dx=&\frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}x^{a-1}e^{-\lambda x}dx\\ =&\frac{\lambda^a}{\Gamma(a)}\int_0^{\infty}(\frac{y}{\lambda})^{a-1}e^{-y}\frac{1}{\lambda}dy\\ =&\frac{1}{\Gamma(a)}\int_0^{\infty}y^{a-1}e^{-y}dy=1\end{aligned} ∫−∞∞f(x)dx===Γ(a)λa∫0∞xa−1e−λxdxΓ(a)λa∫0∞(λy)a−1e−yλ1dyΓ(a)1∫0∞ya−1e−ydy=1
- Γ ( a ) = ∫ 0 ∞ e − x x a − 1 d x = [ e − x x a a ] / 0 ∞ − ∫ 0 ∞ ( − e − x ) x a a d x = 1 a ∫ 0 ∞ e − x x ( a + 1 ) − 1 = Γ ( a + 1 ) a \begin{aligned}\Gamma(a)&=\int_{0}^{\infty}e^{-x}x^{a-1}dx\\ &=[e^{-x}\frac{x^a}{a}]/_0^\infty-\int_0^\infty(-e^{-x})\frac{x^a}{a}dx\\ &=\frac{1}{a}\int_0^\infty e^{-x}x^{(a+1)-1}\\ &=\frac{\Gamma(a+1)}{a}\end{aligned} Γ(a)=∫0∞e−xxa−1dx=[e−xaxa]/0∞−∫0∞(−e−x)axadx=a1∫0∞e−xx(a+1)−1=aΓ(a+1)
-
Γ
(
a
)
=
∫
0
∞
e
−
y
2
y
2
(
a
−
1
)
d
x
d
y
d
y
=
2
∫
0
∞
y
2
a
−
1
e
−
y
2
d
y
\Gamma(a)=\int_0^\infty e^{-y^2}y^{2(a-1)}\frac{dx}{dy}dy=2\int_0^\infty y^{2a-1}e^{-y^2}dy
Γ(a)=∫0∞e−y2y2(a−1)dydxdy=2∫0∞y2a−1e−y2dy
\quad 则: Γ ( 1 2 ) = π \Gamma(\frac{1}{2})=\sqrt{\pi} Γ(21)=π
- M x ( t ) = E [ e t x ] = λ a Γ ( a ) ∫ 0 ∞ x a − 1 e − ( λ − t ) x = λ a Γ ( a ) ∫ 0 ∞ ( y λ − t ) a − 1 e − y 1 λ − t d y = λ a Γ ( a ) Γ ( a ) ( λ − t ) a = ( λ λ − t ) a \begin{aligned}M_x(t)=E[e^{tx}]&=\frac{\lambda^a}{\Gamma(a)}\int_0^\infty x^{a-1}e^{-(\lambda-t)x}\\ &=\frac{\lambda^a}{\Gamma(a)}\int_0^\infty (\frac{y}{\lambda-t})^{a-1}e^{-y}\frac{1}{\lambda-t}dy\\ &=\frac{\lambda^a}{\Gamma(a)}\frac{\Gamma(a)}{(\lambda-t)^a}=(\frac{\lambda}{\lambda-t})^a\end{aligned} Mx(t)=E[etx]=Γ(a)λa∫0∞xa−1e−(λ−t)x=Γ(a)λa∫0∞(λ−ty)a−1e−yλ−t1dy=Γ(a)λa(λ−t)aΓ(a)=(λ−tλ)a
-
G
a
(
a
,
λ
)
Ga(a,\lambda)
Ga(a,λ)的期望和方差分别为:
E [ x ] = a λ , V [ x ] = a λ 2 E[x]=\frac{a}{\lambda},V[x]=\frac{a}{\lambda^2} E[x]=λa,V[x]=λ2a
- 当
a
=
n
2
,
λ
=
1
2
a=\frac{n}{2},\lambda=\frac{1}{2}
a=2n,λ=21时,
G
a
(
n
2
,
1
2
)
=
1
2
n
2
x
n
2
−
1
e
−
1
2
x
Γ
(
n
2
)
Ga(\frac{n}{2},\frac{1}{2})=\frac{\frac{1}{2}^{\frac{n}{2}}x^{\frac{n}{2}-1}e^{-\frac{1}{2}x}}{\Gamma(\frac{n}{2})}
Ga(2n,21)=Γ(2n)212nx2n−1e−21x,这时就变成了了卡方分布。
当 a = 1 a=1 a=1,伽马分布 G a ( a , λ ) Ga(a,\lambda) Ga(a,λ)称为指数分布,并用 E x p ( λ ) Exp(\lambda) Exp(λ)表示。概率密度函数为 f ( x ) = λ e − λ x f(x)=\lambda e^{-\lambda x} f(x)=λe−λx
Beta分布
对于正实数标量
α
\alpha
α和
β
\beta
β,
B
(
α
,
β
)
B(\alpha,\beta)
B(α,β)表示的Beta分布的概率密度函数如下所示:
f
(
x
)
=
x
α
−
1
(
1
−
x
)
β
−
1
B
(
α
,
β
)
,
0
≤
x
≤
1
f(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha, \beta)},0\le x\le 1
f(x)=B(α,β)xα−1(1−x)β−1,0≤x≤1
其中
B
(
α
,
β
)
=
∫
0
1
x
a
−
1
(
1
−
x
)
β
−
1
d
x
且
B
(
α
,
β
)
=
Γ
(
α
)
Γ
(
β
)
Γ
(
α
+
β
)
B(\alpha, \beta)=\int_{0}^{1}x^{a-1}(1-x)^{\beta-1}dx且B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}
B(α,β)=∫01xa−1(1−x)β−1dx且B(α,β)=Γ(α+β)Γ(α)Γ(β)
- 期望和方差
E [ x ] = α α + β 且 V [ x ] = α β ( α + β ) 2 ( α + β + 1 ) E[x]=\frac{\alpha}{\alpha+\beta}且V[x]=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} E[x]=α+βα且V[x]=(α+β)2(α+β+1)αβ
t分布
\quad
令
z
z
z是服从标准正太分布
N
(
0
,
1
)
N(0,1)
N(0,1)的独立随机变量,
y
y
y是服从自由度为d的卡方分布
χ
2
(
d
)
\chi^2(d)
χ2(d)的随机变量,它们的比例:
x
=
x
y
/
d
x=\frac{x}{\sqrt{y/d}}
x=y/dx
其概率密度函数为:
f
(
x
)
=
1
B
(
d
2
,
1
2
)
d
(
1
+
x
2
d
)
−
d
+
1
2
f(x)=\frac{1}{B(\frac{d}{2},\frac{1}{2})\sqrt{d}}(1+\frac{x^2}{d})^{-\frac{d+1}{2}}
f(x)=B(2d,21)d1(1+dx2)−2d+1
- 期望和方差,条件:
d
≥
2
d\ge2
d≥2时,期望存在,
d
≥
3
d\ge3
d≥3时方差存在。
E [ x ] = 0 且 V [ x ] = d d − 2 E[x]=0且V[x]=\frac{d}{d-2} E[x]=0且V[x]=d−2d
F分布
\quad
令
y
y
y和
y
′
y'
y′分别为具有
d
d
d和
d
′
d'
d′自由度的服从卡方分布的随机变量,它们的比例:
x
=
y
/
d
y
′
/
d
′
x=\frac{y/d}{y'/d'}
x=y′/d′y/d
其概率密度函数为:
f
(
x
)
=
1
B
(
d
/
2
,
d
′
/
2
)
(
d
d
′
)
d
2
x
d
2
−
1
(
1
+
d
d
′
x
)
−
d
+
d
′
2
f(x)=\frac{1}{B(d/2,d'/2)}(\frac{d}{d'})^{\frac{d}{2}}x^{\frac{d}{2}-1}(1+\frac{d}{d'}x)^{-\frac{d+d'}{2}}
f(x)=B(d/2,d′/2)1(d′d)2dx2d−1(1+d′dx)−2d+d′
- 期望和方差。条件:
d
′
≥
3
d'\ge3
d′≥3时,期望存在,
d
′
≥
5
d'\ge5
d′≥5时,方差存在。
E [ x ] = d ′ d ′ − 2 且 V [ x ] = 2 d ′ 2 ( d + d ′ − 2 ) d ( d ′ − 2 ) 2 ( d ′ − 4 ) E[x]=\frac{d'}{d'-2}且V[x]=\frac{2d'^2(d+d'-2)}{d(d'-2)^2(d'-4)} E[x]=d′−2d′且V[x]=d(d′−2)2(d′−4)2d′2(d+d′−2)
离散均匀分布
\quad
离散均匀分布表示对于N个事件
{
1
,
…
,
N
}
\{1, \dots, N\}
{1,…,N},他们发生的概率都相同的概率分布。它记作
U
{
1
,
…
,
N
}
U\{1, \dots, N\}
U{1,…,N},其概率分布为
f
(
x
)
=
1
N
,
x
=
1
,
…
,
N
f(x)=\frac{1}{N},x=1, \dots, N
f(x)=N1,x=1,…,N
- 期望和方差:
E [ x ] = N + 1 2 且 V [ x ] = N 2 − 1 12 E[x]=\frac{N+1}{2}且V[x]=\frac{N^2-1}{12} E[x]=2N+1且V[x]=12N2−1
\quad
对于有穷数
a
<
b
a\lt b
a<b,离散均匀分布
U
a
,
a
+
1
,
…
,
b
U{a, a+1,\dots, b}
Ua,a+1,…,b的概率分布函数可以表示为:
f
(
x
)
=
1
b
−
a
+
1
,
x
=
a
,
a
+
1
,
…
,
b
f(x)=\frac{1}{b-a+1}, x=a, a+1, \dots, b
f(x)=b−a+11,x=a,a+1,…,b
- 期望和方差:
E [ x ] = a + b 2 且 V [ x ] = ( b − a + 1 ) 2 − 1 12 E[x]=\frac{a+b}{2}且V[x]=\frac{(b-a+1)^2-1}{12} E[x]=2a+b且V[x]=12(b−a+1)2−1
二项分布
\quad
伯努利实验:一种具有两种可能结果的独立重复实验,实验结果为成功或失败。
\quad
二项式分布:指n次伯努利实验中实验成功地次数
x
x
x的概率分布,用
B
i
(
n
,
p
)
Bi(n,p)
Bi(n,p)表示。
\quad
概率密度函数为:
f
(
x
)
=
p
r
q
n
−
r
(
n
x
)
,
x
=
0
,
1
,
…
,
n
∣
p
+
q
=
1
f(x)=p^rq^{n-r}\dbinom{n}{x},x=0, 1, \dots, n|p+q=1
f(x)=prqn−r(xn),x=0,1,…,n∣p+q=1
-
B
i
(
n
,
p
)
Bi(n, p)
Bi(n,p)的矩阵母函数为:
M x ( t ) = ∑ x = 0 n e t x ( n x ) p x q n − x = ∑ x = 0 n ( p e t ) x q n − x = ( p e t + q ) n M_x(t)=\sum_{x=0}^{n}e^{tx}\binom{n}{x}p^xq^{n-x}=\sum_{x=0}^{n}(pe^t)^xq^{n-x}=(pe^t+q)^n Mx(t)=x=0∑netx(xn)pxqn−x=x=0∑n(pet)xqn−x=(pet+q)n - 期望和方差:
E [ x ] = n p 且 V [ x ] = n p q E[x]=np且V[x]=npq E[x]=np且V[x]=npq
负二项分布
\quad
考虑实验成为概率为
p
p
p的伯努利实验。直到第k次实验成功时,试验失败的次数x服从负二项分布,记作
N
B
(
k
,
p
)
NB(k, p)
NB(k,p)。其概率密度函数为:
f
(
x
)
=
(
k
+
x
−
1
x
)
p
k
(
1
−
p
)
x
(1)
f(x)=\binom{k+x-1}{x}p^k(1-p)^x\tag{1}
f(x)=(xk+x−1)pk(1−p)x(1)
\quad
二项系数
(
r
x
)
\binom{r}{x}
(xr)和二项式定理可推广到
r
=
−
k
<
0
r=-k\lt0
r=−k<0(此处可借鉴连续函数的泰勒展开理解):
(
−
k
x
)
(
−
k
)
(
−
k
−
1
)
⋯
(
−
k
−
x
+
1
)
x
(
x
−
1
)
⋯
1
\dbinom{-k}{x}\frac{(-k)(-k-1)\cdots (-k-x+1)}{x(x-1)\cdots 1}
(x−k)x(x−1)⋯1(−k)(−k−1)⋯(−k−x+1)
和
(
1
+
t
)
−
k
=
∑
x
=
0
∞
(
−
k
x
)
t
x
(1+t)^{-k}=\sum_{x=0}^{\infty}\binom{-k}{x}t^x
(1+t)−k=x=0∑∞(x−k)tx
\quad
(
1
)
(1)
(1)中概率密度函数也可写为:
f
(
x
)
=
(
k
+
x
−
1
)
(
k
+
x
−
2
)
⋯
k
x
(
x
−
1
)
⋯
1
p
k
(
1
−
p
)
x
=
(
−
1
)
x
(
−
k
x
)
p
k
(
1
−
p
)
x
(2)
\begin{aligned} f(x) &=\frac{(k+x-1)(k+x-2)\cdots k}{x(x-1)\cdots 1}p^k(1-p)^x\\ &=(-1)^x\binom{-k}{x}p^k(1-p)^x \end{aligned}\tag{2}
f(x)=x(x−1)⋯1(k+x−1)(k+x−2)⋯kpk(1−p)x=(−1)x(x−k)pk(1−p)x(2)
\quad
(
1
)
(1)
(1)与
(
2
)
(2)
(2)都可表示负二项分布的密度函数。
- 负二项式母函数为:
M x ( t ) = E [ e t x ] = ∑ x = 0 ∞ e t x ( − k x ) p k ( p − 1 ) x = p k ∑ x = 0 ∞ ( − k x ) ( ( p − 1 ) e t ) x = ( p 1 − ( 1 − p ) e x ) k \begin{aligned} M_x(t)& =E[e^{tx}]=\sum_{x=0}^{\infty}e^{tx}\binom{-k}{x}p^k(p-1)^x\\ &=p^k\sum_{x=0}^{\infty}\binom{-k}{x}((p-1)e^t)^x=(\frac{p}{1-(1-p)e^x})^k \end{aligned} Mx(t)=E[etx]=x=0∑∞etx(x−k)pk(p−1)x=pkx=0∑∞(x−k)((p−1)et)x=(1−(1−p)exp)k
- 期望与方差:
E [ x ] = k ( 1 − p ) p 且 v [ x ] = k ( 1 − p ) p 2 E[x]=\frac{k(1-p)}{p}且v[x]=\frac{k(1-p)}{p^2} E[x]=pk(1−p)且v[x]=p2k(1−p)
几何分布
\quad
考虑试验成功概率为
p
p
p的伯努利试验。直到第一次成功时,试验失败的次数
x
x
x服从几何分布。它等效于
k
=
1
k=1
k=1的负二项分布。表示为
G
e
(
p
)
Ge(p)
Ge(p),其概率密度函数为:
f
(
x
)
=
p
(
1
−
p
)
x
f(x)=p(1-p)^x
f(x)=p(1−p)x
- 由于
G
e
(
p
)
=
N
B
(
1
,
P
)
Ge(p)=NB(1,P)
Ge(p)=NB(1,P),因此其矩量母函数:
M x ( t ) = p 1 − ( 1 − p ) e t M_x(t)=\frac{p}{1-(1-p)e^t} Mx(t)=1−(1−p)etp - 期望和方差为:
E [ x ] = 1 − p p 且 V [ x ] = 1 − p p 2 E[x]=\frac{1-p}{p}且V[x]=\frac{1-p}{p^2} E[x]=p1−p且V[x]=p21−p
泊松分布
\quad
有意思的例子:已知二项分布
B
i
(
n
,
p
)
,
n
=
10000000
,
p
=
0.00000003
Bi(n,p),n=10000000,p=0.00000003
Bi(n,p),n=10000000,p=0.00000003,它平均有三次实验成功,因为
E
[
x
]
=
n
p
=
3
E[x]=np=3
E[x]=np=3,而计算
x
=
5
x=5
x=5对应的概率应为:
P
(
5
)
=
(
10000000
5
)
(
0.00000003
)
5
(
0.9999997
)
9999995
P(5)=\binom{10000000}{5}(0.00000003)^5(0.9999997)^{9999995}
P(5)=(510000000)(0.00000003)5(0.9999997)9999995
你告诉我咋算!(手动滑稽!!!^ - ^)
泊松小数定理
对于
p
=
λ
/
n
p=\lambda/n
p=λ/n,有如下公式成立:
lim
n
→
∞
(
n
x
)
p
x
(
1
−
p
)
n
−
x
=
e
−
λ
λ
x
x
!
\lim_{n\rightarrow\infty}\binom{n}{x}p^x(1-p)^{n-x}=\frac{e^{-\lambda}\lambda^x}{x!}
n→∞lim(xn)px(1−p)n−x=x!e−λλx
证明:
lim
n
→
∞
(
n
x
)
λ
n
x
(
1
−
λ
n
)
n
−
x
=
lim
n
→
∞
n
!
x
!
(
n
−
x
)
!
(
λ
n
)
x
(
1
−
λ
n
)
n
−
x
=
λ
x
x
!
lim
n
→
∞
n
!
(
n
−
x
)
!
n
x
(
1
−
λ
n
)
n
(
1
−
λ
n
)
−
x
s
i
n
c
e
:
lim
n
→
∞
n
!
(
n
−
x
)
!
n
x
=
1
lim
n
→
∞
(
1
−
λ
n
)
n
=
e
−
λ
lim
n
→
∞
(
1
−
λ
n
)
−
x
=
1
s
o
:
=
e
−
λ
λ
x
x
!
\begin{aligned} \lim_{n\rightarrow \infty}\binom{n}{x}\frac{\lambda}{n}^x(1-\frac{\lambda}{n})^{n-x}&=\lim_{n\rightarrow\infty}\frac{n!}{x!(n-x)!}(\frac{\lambda}{n})^x(1-\frac{\lambda}{n})^{n-x}\\ &=\frac{\lambda^x}{x!}\lim_{n\rightarrow\infty}\frac{n!}{(n-x)!n^x}(1-\frac{\lambda}{n})^n(1-\frac{\lambda}{n})^{-x}\\ since:&\lim_{n\rightarrow\infty}\frac{n!}{(n-x)!n^x}=1\\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^n=e^{-\lambda}\\ &\lim_{n\rightarrow\infty}(1-\frac{\lambda}{n})^{-x}=1\\ so:&=\frac{e^{-\lambda}\lambda^x}{x!} \end{aligned}
n→∞lim(xn)nλx(1−nλ)n−xsince:so:=n→∞limx!(n−x)!n!(nλ)x(1−nλ)n−x=x!λxn→∞lim(n−x)!nxn!(1−nλ)n(1−nλ)−xn→∞lim(n−x)!nxn!=1n→∞lim(1−nλ)n=e−λn→∞lim(1−nλ)−x=1=x!e−λλx
\quad
泊松分布的概率密度函数记为
P
o
(
λ
)
Po(\lambda)
Po(λ),概率分布函数为:
f
(
x
)
=
e
−
λ
λ
x
x
!
f(x)=\frac{e^{-\lambda}\lambda^x}{x!}
f(x)=x!e−λλx
- 矩量母函数:
M x ( t ) = E [ e t x ] = ∑ x = 0 ∞ e t x e − λ λ x x ! = e x p ( λ ( e t − 1 ) ) M_x(t)=E[e^{tx}]=\sum_{x=0}^{\infty}\frac{e^{tx}e^{-\lambda}\lambda^x}{x!}=exp(\lambda(e^t-1)) Mx(t)=E[etx]=x=0∑∞x!etxe−λλx=exp(λ(et−1))
- 期望与方差
E [ x ] = λ 且 V [ x ] = λ E[x]=\lambda且V[x]=\lambda E[x]=λ且V[x]=λ
超几何分布
\quad 一个包里有 N N N个球,其中 M M M个球标记为"A", N − M N-M N−M个球。标记为“B”。在该中情况下,有两种取球方案。
有放回取样
\quad 在下一次取样前,把取出球的放回包中。此情况下,一个球总是从全部的N个球中抽取,取样的过程相当于伯努利实验,因此抽取n个球,含有x个A球的概率分布可表示为 B i ( n , M / N ) Bi(n,M/N) Bi(n,M/N)。
无放回取样
\quad
在下一次取样前,无需将上一次取出的球放回包中。此情况下,包中的球的数量随着实验的进行而不断减少。因此,A与B的球数量之比取决于历次抽样情况。抽取n个球,含有x个A球的概率分布分布称为超几何分布,记为
H
G
(
N
,
M
,
n
)
HG(N,M,n)
HG(N,M,n)。其概率密度函数为:
f
(
x
)
=
(
M
x
)
(
N
−
M
n
−
x
)
(
N
n
)
,
x
=
0
,
1
,
⋯
,
n
f(x)=\frac{\binom{M}{x}\binom{N-M}{n-x}}{\binom{N}{n}},x=0,1,\cdots,n
f(x)=(nN)(xM)(n−xN−M),x=0,1,⋯,n
- 期望和方差:
E [ x ] = n M N 且 V [ x ] = n M ( N − M ) ( N − n ) N 2 ( N − 1 ) E[x]=\frac{nM}{N}且V[x]=\frac{nM(N-M)(N-n)}{N^2(N-1)} E[x]=NnM且V[x]=N2(N−1)nM(N−M)(N−n)
其中:
E [ x ] = 1 ( N n ) ∑ x = 0 n x ( M x ) ( N − M n − x ) = M ( N n ) ∑ x = 1 n ( M − 1 x − 1 ) ( N − M n − x ) = M ( N n ) ∑ x = 0 n − 1 ( M − 1 x ) ( N − M n − x − 1 ) = n M N 1 ( N − 1 n − 1 ) ∑ x = 0 n − 1 ( M − 1 x ) ( N − M n − x − 1 ) [ 有 ( N n ) = ∑ x = 0 n ( M x ) ( N − M n − x ) ] = n M N \begin{aligned} E[x]&=\frac{1}{\binom{N}{n}}\sum_{x=0}^{n}x\binom{M}{x}\binom{N-M}{n-x}\\ &=\frac{M}{\binom{N}{n}}\sum_{x=1}^{n}\binom{M-1}{x-1}\binom{N-M}{n-x}\\ &=\frac{M}{\binom{N}{n}}\sum_{x=0}^{n-1}\binom{M-1}{x}\binom{N-M}{n-x-1}\\ &=\frac{nM}{N}\frac{1}{\binom{N-1}{n-1}}\sum_{x=0}^{n-1}\binom{M-1}{x}\binom{N-M}{n-x-1}\quad [有\binom{N}{n}=\sum_{x=0}^{n}\binom{M}{x}\binom{N-M}{n-x}]\\ &=\frac{nM}{N} \end{aligned} E[x]=(nN)1x=0∑nx(xM)(n−xN−M)=(nN)Mx=1∑n(x−1M−1)(n−xN−M)=(nN)Mx=0∑n−1(xM−1)(n−x−1N−M)=NnM(n−1N−1)1x=0∑n−1(xM−1)(n−x−1N−M)[有(nN)=x=0∑n(xM)(n−xN−M)]=NnM
V [ x ] = E [ x ( x − 1 ) ] + E [ x ] − ( E [ x ] ) 2 V[x]=E[x(x-1)]+E[x]-(E[x])^2 V[x]=E[x(x−1)]+E[x]−(E[x])2
- 矩量母函数:
M x ( t ) = E [ e t x ] = ( N − M n ) ( N n ) F ( − n , − M , N − M − n + 1 , e t ) M_x(t)=E[e^{tx}]=\frac{\binom{N-M}{n}}{\binom{N}{n}}F(-n,-M,N-M-n+1, e^t) Mx(t)=E[etx]=(nN)(nN−M)F(−n,−M,N−M−n+1,et)
其中
F ( a , b , c , d ) = ∑ x = 0 ∞ ( a ) x ( b ) x ( c ) x d x x ! ( a ) x = { a ( a + 1 ) ⋯ ( a + x − 1 ) x > 0 1 x = 0 F(a,b,c,d)=\sum_{x=0}^{\infty}\frac{(a)_x(b)_x}{(c)_x}\frac{d^x}{x!}\\ (a)_x= \begin{cases} a(a+1)\cdots (a+x-1) &x>0\\ 1 & x=0 \end{cases} F(a,b,c,d)=x=0∑∞(c)x(a)x(b)xx!dx(a)x={a(a+1)⋯(a+x−1)1x>0x=0
因为其矩量母函数可以用超几何系数来表示,超几何分布由此而得名。
python绘图
import scipy.stats as ss
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus'] = False
"""
continue
"""
# 均匀分布和正太分布
plt.style.use("fivethirtyeight") # 一定要卸载subplots的前面,否则是没用的!
fig, ax = plt.subplots(2, 2)
x = np.linspace(0, 3, 100)
y_uniform = ss.uniform.pdf(x, 0, 3)
y_norm_1 = ss.norm.pdf(x, 0.5, 0.5)
y_norm_2 = ss.norm.pdf(x, 1, 1.5)
y_norm_3 = ss.norm.pdf(x, 2, 2)
ax[0, 0].set_title("均匀分布和正态分布")
ax[0, 0].plot(x, y_uniform, label="U(0,3)")
ax[0, 0].plot(x, y_norm_1, label="N(0.5,0.5)")
ax[0, 0].plot(x, y_norm_2, label="N(1,3)")
ax[0, 0].plot(x, y_norm_3, label="N(2,2)")
ax[0, 0].legend()
# Gamma分布
x = np.linspace(0, 5, 1000)
y_gamma_1 = ss.gamma.pdf(x, 2, scale=1/2) # scale=1/beta
y_gamma_2 = ss.gamma.pdf(x, 1, scale=1/1)
y_gamma_3 = ss.gamma.pdf(x, 2, scale=1/0.5)
y_gamma_4 = ss.gamma.pdf(x, 0.8, scale=1/0.5)
y_gamma_5 = ss.gamma.pdf(x, 1, scale=1/2)
y_gamma_6 = ss.gamma.pdf(x, 0.8, scale=1/1)
ax[0, 1].set_title("伽马分布")
ax[0, 1].plot(x, y_gamma_1, label="Ga(2,2)")
ax[0, 1].plot(x, y_gamma_2, label="Ga(1,1)")
ax[0, 1].plot(x, y_gamma_3, label="Ga(2,0.5)")
ax[0, 1].plot(x, y_gamma_4, label="Ga(0.8,0.5)")
ax[0, 1].plot(x, y_gamma_5, label="Ga(1,2)")
ax[0, 1].plot(x, y_gamma_6, label="Ga(0.8,1)")
ax[0, 1].legend()
# Beta分布
x = np.linspace(0, 1, 200)
y_beta_1 = ss.beta.pdf(x, 0.5, 0.5)
y_beta_2 = ss.beta.pdf(x, 0.5, 1)
y_beta_3 = ss.beta.pdf(x, 1, 0.5)
y_beta_4 = ss.beta.pdf(x, 1, 3)
y_beta_5 = ss.beta.pdf(x, 3, 0.5)
y_beta_6 = ss.beta.pdf(x, 3, 3)
ax[1, 0].set_title("贝塔分布")
ax[1, 0].plot(x, y_beta_1, label="B(0.5,0.5)")
ax[1, 0].plot(x, y_beta_2, label="B(0.5,1)")
ax[1, 0].plot(x, y_beta_3, label="B(1,0.5)")
ax[1, 0].plot(x, y_beta_4, label="B(1,3)")
ax[1, 0].plot(x, y_beta_5, label="B(3,0.5)")
ax[1, 0].plot(x, y_beta_6, label="B(3,3)")
ax[1, 0].legend()
# t分布和F分布
x_t = np.linspace(-2, 2, 400)
y_t_1 = ss.t.pdf(x_t, 1)
y_t_2 = ss.t.pdf(x_t, 3)
x_f = np.linspace(0, 4, 400)
y_f_1 = ss.f.pdf(x_f, 2, 1)
y_f_2 = ss.f.pdf(x_f, 10, 1)
ax[1, 1].set_title("t分布与F分布")
ax[1, 1].plot(x_t, y_t_1, label="t(1)")
ax[1, 1].plot(x_t, y_t_2, label="t(3)")
ax[1, 1].plot(x_f, y_f_1, label="F(2,1)")
ax[1, 1].plot(x_f, y_f_2, label="F(10,1)")
ax[1, 1].legend()
# ---------------------------------------------------
"""
discrete
"""
plt.style.use("Solarize_Light2")
_, ax = plt.subplots(3, 3)
# 均匀分布
x = np.arange(0, 5, 1)
y = [1 / len(x)] * len(x)
ax[0, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 0].set_xticks(x)
ax[0, 0].set_title("均匀分布", fontsize=10)
# ax[0, 0].spines['right'].set_visible(False)
# ax[0, 0].spines['top'].set_visible(False)
# 二项分布
x = np.arange(0, 11, 1)
y = ss.binom.pmf(x, 10, 0.5)
ax[0, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 1].set_title("Bi(10,0.5)", fontsize=10)
x = np.arange(0, 11, 1)
y = ss.binom.pmf(x, 10, 0.2)
ax[0, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[0, 2].set_title("Bi(10,0.2)", fontsize=10)
# 负二项分布
x = np.arange(0, 30, 2)
y = ss.nbinom.pmf(x, 3, 0.2)
ax[1, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 0].set_title("NB(3,0.2)", fontsize=10)
x = np.arange(0, 30, 2)
y = ss.nbinom.pmf(x, 5, 0.6)
ax[1, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 1].set_title("NB(5,0.6)", fontsize=10)
# 几何分布:这个库中的几何分布中的x表示试验次数,不是失败次数,即x=x-1
x = np.arange(1, 30, 2)
y = ss.geom.pmf(x, 0.1)
ax[1, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[1, 2].set_title("Ge(0.1)", fontsize=10)
# 泊松分布
x = np.arange(0, 15, 1)
y = ss.poisson.pmf(x, 3)
ax[2, 0].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 0].set_title("Po(3)", fontsize=10)
# 超几何分布
x = np.arange(0, 15, 1)
y = ss.hypergeom.pmf(x, 20, 5, 10)
ax[2, 1].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 1].set_title("HG(20,5,10)", fontsize=10)
y = ss.hypergeom.pmf(x, 20, 8, 15)
ax[2, 2].stem(x, y, linefmt='r--', basefmt='None')
ax[2, 2].set_title("HG(20,8,15)", fontsize=10)
plt.show()