概率分布
分布:一个变量取值的任意集合。分为离散型概率分布和连续型概率分布两种。
离散型随机变量:可以取有限多个数值或无限可数多个数值的随机变量。
连续型随机变量:可以在某一区间或多个区间内任意取值的随机变量。
随机变量的概率分布(probability distribution)是描述随机变量取不同值的概率。
离散型概率分布
前言
数学期望:对随机变量中心位置的一种度量。
E
(
X
)
=
μ
=
∑
x
f
(
x
)
E(X)=\mu=\sum{xf(x)}
E(X)=μ=∑xf(x)
方差:描述随机变量取值的变异性。
V
a
r
(
X
)
=
σ
2
=
∑
(
x
−
μ
)
2
f
(
x
)
Var(X)=\sigma^2=\sum{(x-\mu)^2f(x)}
Var(X)=σ2=∑(x−μ)2f(x)
标准差:度量了数据与数据中心的数学期望的距离。
σ
=
V
a
r
(
x
)
\sigma=\sqrt{Var(x)}
σ=Var(x)
通用公式:
E
(
a
X
+
b
)
=
a
E
(
X
)
+
b
E(aX+b)=aE(X)+b
E(aX+b)=aE(X)+b
V
a
r
(
a
X
+
b
)
=
a
2
V
a
r
(
X
)
Var(aX+b)=a^2Var(X)
Var(aX+b)=a2Var(X)
独立观测值:
如果
x
1
,
x
2
,
…
,
x
n
x_1,x_2,\dots,x_n
x1,x2,…,xn是随机变量
x
x
x的独立观测值,则
E
(
x
1
+
x
2
+
⋯
+
x
n
)
=
n
E
(
X
)
E(x_1+x_2+\dots+x_n)=nE(X)
E(x1+x2+⋯+xn)=nE(X)
V
a
r
(
x
1
+
x
2
+
⋯
+
x
n
)
=
n
V
a
r
(
X
)
Var(x_1+x_2+\dots+x_n)=nVar(X)
Var(x1+x2+⋯+xn)=nVar(X)
X
X
X和
Y
Y
Y是独立随机变量:
E
(
X
+
Y
)
=
E
(
X
)
+
E
(
Y
)
E(X+Y)=E(X)+E(Y)
E(X+Y)=E(X)+E(Y)
E
(
X
−
Y
)
=
E
(
X
)
−
E
(
Y
)
E(X-Y)=E(X)-E(Y)
E(X−Y)=E(X)−E(Y)
V
a
r
(
X
+
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
Var(X+Y)=Var(X)+Var(Y)
Var(X+Y)=Var(X)+Var(Y)
V
a
r
(
X
−
Y
)
=
V
a
r
(
X
)
+
V
a
r
(
Y
)
Var(X-Y)=Var(X)+Var(Y)
Var(X−Y)=Var(X)+Var(Y)
离散均匀分布(Uniform Distribution)
假设 X X X有 k k k个取值: x 1 , x 2 , … , x k x_1,x_2,\dots,x_k x1,x2,…,xk则均匀分布的概率为: P ( X = x i ) = 1 k P(X=x_i)=\frac{1}{k} P(X=xi)=k1
两点分布(伯努利分布,Bernoulli Distribution)
如果随机变量
X
X
X只取0和1两个值,并且相应的概率为:
P
(
x
)
=
p
x
(
1
−
p
)
1
−
x
=
{
p
,
x
=
1
1
−
p
,
x
=
0
P(x)=p^x(1-p)^1-x= \begin{cases} p,x=1 \\ 1-p,x=0 \end{cases}
P(x)=px(1−p)1−x={p,x=11−p,x=0
则称随机变量
X
X
X服从参数为
p
p
p的伯努利分布。
E
(
X
)
=
p
E(X)=p
E(X)=p
E
(
X
2
)
=
p
E(X^2)=p
E(X2)=p
V
a
r
(
X
)
=
p
(
1
−
p
)
Var(X)=p(1-p)
Var(X)=p(1−p)
二项分布(Binomial Distribution)
二项分布是多次伯努利分布实验的概率分布。
n
n
n次试验,
j
j
j次成功为1,二项分布为:
P
(
X
=
k
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
C
n
k
=
n
!
k
!
(
n
−
k
)
!
P(X=k)=C^k_np^k(1-p)^{n-k},C^k_n=\frac{n!}{k!(n-k)!}
P(X=k)=Cnkpk(1−p)n−k,Cnk=k!(n−k)!n!
E
(
X
)
=
n
p
E(X)=np
E(X)=np
V
a
r
(
X
)
=
n
p
(
1
−
p
)
Var(X)=np(1-p)
Var(X)=np(1−p)
泊松分布(Poisson Distribution)
泊松分布和指数分布:10分钟教程
泊松分布就是描述某段时间内,事件具体的发生概率。泊松分布的公式可以从二项分布推断出来。
假设已知事件在单位时间(或者单位面积)内发生的平均次数为
λ
\lambda
λ,则泊松分布描述了:事件在单位时间(或者单位面积)内发生的具体次数为
k
k
k的概率。
P
(
X
=
k
)
=
λ
k
k
!
e
−
λ
,
k
=
0
,
1
,
…
P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},k=0,1,\dots
P(X=k)=k!λke−λ,k=0,1,…
E
(
X
)
=
λ
E(X)=\lambda
E(X)=λ
V
a
r
(
X
)
=
λ
Var(X)=\lambda
Var(X)=λ
超几何分布(Hypergeometric Distribution)
超几何分布是统计学上一种离散概率分布。它描述了从有限 N N N个物件(其中包含 M M M个指定种类的物件)中抽出 n n n个物件,成功抽出该指定种类的物件的次数(不放回)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。超几何分布中的参数是 N N N, M M M , n n n,上述超几何分布记作 X H ( n , M , N ) X~H(n,M,N) X H(n,M,N). P ( X = k ) = C M k C N − M n − k C N n , k = 0 , 1 , 2 , … , m i n ( n , M ) P(X=k)=\frac{C^k_MC^{n-k}_{N-M}}{C^n_N},k=0,1,2,\dots,min(n,M) P(X=k)=CNnCMkCN−Mn−k,k=0,1,2,…,min(n,M) E ( X ) = n M N E(X)=\frac{nM}{N} E(X)=NnM v a r ( X ) = n M N ( 1 − M N ) N − n N − 1 var(X)=\frac{nM}{N}(1-\frac{M}{N})\frac{N-n}{N-1} var(X)=NnM(1−NM)N−1N−n
连续型概率分布
数学期望: E ( X ) = ∫ − ∞ + ∞ x f ( x ) d x E(X)=\int_{- \infty}^{+ \infty}{xf(x)}dx E(X)=∫−∞+∞xf(x)dx
连续均匀分布(Uniform Distribution)
公式有时间再补充
假设
X
X
X在
[
a
,
b
]
[a,b]
[a,b]上均匀分布,则其
概率密度函数为:
p
(
x
)
=
{
1
b
−
a
,
a
≤
x
≤
b
0
,
o
t
h
e
r
p(x)= \left\{\begin{aligned} \frac{1}{b-a},a\leq x \leq b\\ 0,other \end{aligned}\right.
p(x)=⎩⎨⎧b−a1,a≤x≤b0,other
分布函数: f ( x ) = { 0 , x < a x − a b − a , a ≤ x < b 1 , x ≥ b f(x)= \left\{\begin{aligned} 0,x<a \\ \frac{x-a}{b-a},a\leq x < b\\ 1,x \geq b \end{aligned}\right. f(x)=⎩⎪⎪⎪⎨⎪⎪⎪⎧0,x<ab−ax−a,a≤x<b1,x≥b
数学期望: E ( X ) = a + b 2 E(X)=\frac{a+b}{2} E(X)=2a+b
方差: V a r ( x ) = ( b − a ) 2 2 Var(x)=\frac{(b-a)^2}{2} Var(x)=2(b−a)2
指数分布
概率密度函数: p ( x ) = { λ e − λ x , x ≥ 0 0 , x < 0 p(x)= \left\{\begin{aligned} \lambda e^{-\lambda x},x \geq 0\\ 0,x<0 \end{aligned}\right. p(x)={λe−λx,x≥00,x<0
分布函数: F ( x ) = { 1 − λ e − λ x , x ≥ 0 0 , x < 0 F(x)= \left\{\begin{aligned} 1-\lambda e^{-\lambda x},x \geq 0\\ 0,x<0 \end{aligned}\right. F(x)={1−λe−λx,x≥00,x<0
数学期望: E ( X ) = 1 λ E(X)=\frac{1}{\lambda} E(X)=λ1
方差: V a r ( X ) = 1 λ 2 Var(X)=\frac{1}{\lambda ^2} Var(X)=λ21
正态分布(Normal Distribution,高斯分布Gaussian Distribution)
在求二项分布的渐近公式中得到。正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
一维正态分布:
概率密度函数:
p
(
x
)
=
1
2
π
σ
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
p(x)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})
p(x)=2πσ1exp(−2σ2(x−μ)2),
μ
\mu
μ为位置参数,是数学期望;
σ
\sigma
σ是尺度参数,是标准差。则
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu, \sigma^2)
X∼N(μ,σ2).
标准正态分布:
概率密度函数:
p
(
x
)
=
1
2
π
e
x
p
(
−
x
2
2
)
p(x)=\frac{1}{\sqrt{2\pi}}exp(-\frac{x^2}{2})
p(x)=2π1exp(−2x2),此时
μ
=
0
,
σ
=
1
\mu=0, \sigma=1
μ=0,σ=1
定理:
若
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu,\sigma^2)
X∼N(μ,σ2),则
Y
=
X
−
μ
σ
∼
N
(
0
,
1
)
Y=\frac{X-\mu}{\sigma}\sim N(0,1)
Y=σX−μ∼N(0,1)
伽马分布
伽马函数: Γ = ∫ 0 ∞ x α − 1 e − x d x , α > 0 \Gamma=\int_{0}^{\infty}{x^{\alpha-1}e^{-x}}dx,\alpha>0 Γ=∫0∞xα−1e−xdx,α>0
性质:
1、
Γ
(
1
)
=
1
,
Γ
(
1
2
)
=
π
\Gamma(1)=1,\Gamma(\frac{1}{2})=\sqrt{\pi}
Γ(1)=1,Γ(21)=π
2、 Γ ( α + 1 ) = α Γ ( Γ ) \Gamma(\alpha+1)=\alpha\Gamma(\Gamma) Γ(α+1)=αΓ(Γ), 对于自然数 n n n,有 Γ ( n ) = n ! . \Gamma(n)=n!. Γ(n)=n!.
3、 ∫ 0 ∞ x α − 1 e − λ x d x = Γ ( α ) / λ α \int_{0}^{\infty}{x^{\alpha-1}e^{-\lambda x}}dx=\Gamma(\alpha)/\lambda^{\alpha} ∫0∞xα−1e−λxdx=Γ(α)/λα
概率密度函数: p ( x ) = { λ α Γ ( α ) x α − 1 e − λ x , x > 0 0 , x ≤ 0 p(x)= \left\{\begin{aligned} \frac{\lambda ^{\alpha}}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},x > 0\\ 0,x\leq0 \end{aligned}\right. p(x)=⎩⎪⎨⎪⎧Γ(α)λαxα−1e−λx,x>00,x≤0 ,其中 α > 0 \alpha>0 α>0称为形状参数, λ > 0 \lambda>0 λ>0称为尺度参数。
数学期望: E ( X ) = α λ E(X)=\frac{\alpha}{\lambda} E(X)=λα
与指数分布的关系: G a ( 1 , λ ) Ga(1,\lambda) Ga(1,λ)为指数分布。
与卡方分布的关系: G a ( n 2 , 1 2 ) Ga(\frac{n}{2},\frac{1}{2}) Ga(2n,21), n n n为自然数称为自由度为 n n n的卡方分布。
贝塔分布
贝塔函数: β ( a , b ) = ∫ 0 1 x α − 1 ( 1 − x ) b − 1 d x , a > 0 , b > 0 \beta(a,b)=\int_{0}^{1}{x^{\alpha-1}(1-x)^{b-1}}dx,a>0,b>0 β(a,b)=∫01xα−1(1−x)b−1dx,a>0,b>0.
性质:
β
(
a
,
b
)
=
β
(
b
,
a
)
\beta(a,b)=\beta(b,a)
β(a,b)=β(b,a)
β ( a , b ) = Γ ( a ) Γ ( b ) Γ ( a + b ) \beta(a,b)=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)} β(a,b)=Γ(a+b)Γ(a)Γ(b)
密度函数: p ( x ) = Γ ( a + b ) Γ ( a ) Γ ( b ) x α − 1 ( 1 − x ) b − 1 , 0 ≤ x ≤ 1 p(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{\alpha-1}(1-x)^{b-1},0\leq x \leq 1 p(x)=Γ(a)Γ(b)Γ(a+b)xα−1(1−x)b−1,0≤x≤1,其中 a a a和 b b b都是形状参数,且都为正。 X ∼ B e ( a , b ) X\sim Be(a,b) X∼Be(a,b).
数学期望: E ( X ) = a a + b E(X)=\frac{a}{a+b} E(X)=a+ba
与均匀分布的关系: B e ( 1 , 1 ) Be(1,1) Be(1,1)
卡方分布
自由度为 n n n的 χ 2 \chi^2 χ2分布的密度函数: p ( x ) = 1 Γ ( n 2 ) 2 n 2 x n 2 − 1 e − x 2 , x > 0 p(x)=\frac{1}{\Gamma(\frac{n}{2})2^\frac{n}{2}}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},x>0 p(x)=Γ(2n)22n1x2n−1e−2x,x>0
数学期望: E ( X ) = n E(X)=n E(X)=n
t分布(t-distribution)
如果 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1), Y ∼ χ 2 ( n ) Y\sim \chi^2(n) Y∼χ2(n) , 且 X X X和 Y Y Y独立,则 t = X Y n t=\frac{X}{\sqrt{\frac{Y}{n}}} t=nYX的分布称为自由度为 n n n的 t t t分布。记为 t ( n ) . t(n). t(n).
F分布
如果 X ∼ χ 2 ( n ) X\sim \chi^2(n) X∼χ2(n), Y ∼ χ 2 ( m ) Y\sim \chi^2(m) Y∼χ2(m), 且 X X X和 Y Y Y独立,则 F = X n Y m F=\frac{\frac{X}{n}}{\frac{Y}{m}} F=mYnX的分布称为自由度为 n n n和 m m m的 F F F分布。记为 F ( n , m ) F(n,m) F(n,m).
拉普拉斯分布
拉普拉斯分布
密度函数:
p
(
x
∣
μ
,
λ
)
=
1
2
λ
e
−
∣
x
−
μ
∣
λ
p(x|\mu,\lambda)=\frac{1}{2\lambda}e^{-\frac{|x-\mu|}{\lambda}}
p(x∣μ,λ)=2λ1e−λ∣x−μ∣,其中
μ
\mu
μ为位置参数;
λ
\lambda
λ是尺度参数。
数学期望: E ( X ) = μ E(X)=\mu E(X)=μ
方差: V a r ( X ) = 2 λ 2 Var(X)=2\lambda^{2} Var(X)=2λ2
拉普拉斯分布的密度函数,可以看作是两个指数分布函数的概率密度“背靠背”拼接在一起。
性质:
1、如果
X
∼
E
x
p
(
λ
)
,
Y
∼
E
x
p
(
μ
)
X\sim Exp(\lambda),Y\sim Exp(\mu)
X∼Exp(λ),Y∼Exp(μ),那么
λ
X
−
μ
Y
∼
L
a
p
l
a
c
e
(
0
,
1
)
\lambda X - \mu Y\sim Laplace(0,1)
λX−μY∼Laplace(0,1);
2、如果 X , Y ∼ U ( 0 , 1 ) X,Y\sim U(0,1) X,Y∼U(0,1),那么 l n X Y ∼ L a p l a c e ( 0 , 1 ) ln\frac{X}{Y}\sim Laplace(0,1) lnYX∼Laplace(0,1);
3、如果 X i ∼ L a p l a c e ( μ , λ ) X_{i}\sim Laplace(\mu,\lambda) Xi∼Laplace(μ,λ),那么 2 λ ∑ i = 1 n ∣ X i − μ ∣ ∼ c h i 2 ( 2 n ) \frac{2}{\lambda}\sum_{i=1}^{n}{|X_i-\mu|}\sim chi^{2}(2n) λ2∑i=1n∣Xi−μ∣∼chi2(2n);
4、如果 X , Y ∼ L a p l a c e ( μ , λ ) X,Y\sim Laplace(\mu, \lambda) X,Y∼Laplace(μ,λ),那么 ∣ X − μ ∣ ∣ Y − μ ∣ ∼ F ( 2 , 2 ) \frac{|X-\mu|}{|Y-\mu|}\sim F(2,2) ∣Y−μ∣∣X−μ∣∼F(2,2)
狄利克雷分布
浅谈狄利克雷分布——Dirichlet Distribution
Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)
多元贝塔分布,狄利克雷分布是贝塔分布的扩展。定义多元连续随机变量 θ = { θ 1 , θ 2 , … , θ k } \theta=\{\theta_1,\theta_2,\dots,\theta_k\} θ={θ1,θ2,…,θk}的概率密度函数为 p ( θ ∣ α ) = Γ ( ∑ i = 1 k α i ) ∏ i = 1 k Γ ( α i ) ∏ i = 1 k θ i α i − 1 , α i > 0 , i = 1 , 2 , … , k p(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^k{\alpha_i})}{\prod_{i=1}^k{\Gamma(\alpha_i)}}\prod_{i=1}^k{\theta_i^{\alpha_i-1}},\alpha_i>0,i=1,2,\dots,k p(θ∣α)=∏i=1kΓ(αi)Γ(∑i=1kαi)i=1∏kθiαi−1,αi>0,i=1,2,…,k
其中 ∑ i = 1 k θ i = 1 , θ i ≥ 0 \sum_{i=1}^k{\theta_i}=1,\theta_i\geq 0 ∑i=1kθi=1,θi≥0,则称随机变量 θ \theta θ服从参数为 α \alpha α的狄利克雷分布,记作 θ ∼ D i r ( α ) \theta\sim Dir(\alpha) θ∼Dir(α)。
定义
B
(
α
)
=
Γ
(
∑
i
=
1
k
α
i
)
∏
i
=
1
k
Γ
(
α
i
)
B(\alpha)=\frac{\Gamma(\sum_{i=1}^k{\alpha_i})}{\prod_{i=1}^k{\Gamma(\alpha_i)}}
B(α)=∏i=1kΓ(αi)Γ(∑i=1kαi)
B ( α ) B(\alpha) B(α)称为多元贝塔函数或扩展贝塔函数,其积分表示为: ∫ ∏ i = 1 k θ i α i − 1 d θ \int{\prod_{i=1}^{k}{\theta_i^{\alpha_i-1}}}d\theta ∫∏i=1kθiαi−1dθ 。