文章目录
许多简单的概率分布在众多领域中都是有用的。
独立同分布(Independent and Identically distributed )
在概率统计理论中,指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布。如果随机变量X1和X2独立,是指X1的取值不影响X2的取值,X2的取值也不影响X1的取值且随机变量X1和X2服从同一分布,这意味着X1和X2具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差。如实验条件保持不变,一系列的抛硬币的正反面结果是独立同分布。
关于独立同分布,西瓜书这样解释道:
输入空间中的所有样本服从一个隐含未知的分布,训练数据所有样本都是独立地从这个分布上采样而得。
高斯分布(Gaussian distribution)
实数上最常用的分布,也称为正态分布(Normal distribution)。
N
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
2
exp
(
−
1
2
σ
2
(
x
−
μ
)
2
)
N\left ( x; \mu ,\sigma ^{2}\right )=\sqrt{\frac{1}{2\pi\sigma ^{2} }}\textrm{exp}\left ( -\frac{1}{2\sigma ^{2}}\left ( x- \mu \right )^{2} \right )
N(x;μ,σ2)=2πσ21exp(−2σ21(x−μ)2)
正态分布由两个参数控制:
μ
∈
R
\mu \in \mathbb{R}
μ∈R和
σ
∈
(
0
,
)
\sigma \in (0, )
σ∈(0,)。参数
μ
\mu
μ给出了中心峰值的坐标,这也是分布的均值。分布的标准差用
σ
\sigma
σ表示,方差用
σ
2
\sigma^{2}
σ2表示。
当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因:
第一,建模的很多分布的真实情况是比较接近正态分布的。中心极限定理说明很多独立随机变量的和近似服从正态分布。这意味着在实际中,很多复杂系统都可以被成功的建模成正态分布的噪声,即使系统可以分解为一些更结构化的部分。
第二, 在具有相同方差的所有可能的概率分布中,正态分布在实数上具有最大的不确定性。因此,我们可以认为正态分布是对模型加入的先验知识量最少的分布。
多元高斯分布
ads
伯努利分布
伯努利分布亦称“零一分布”,参数为
p
(
1
>
p
>
0
)
p(1>p>0)
p(1>p>0),分别以概率
p
p
p取0 和 概率
1
−
p
1-p
1−p取1。伯努利分布是一个离散型概率分布。应用于只有两种实验结果,要么成功,要么失败。
PMF为:
f
(
x
∣
p
)
=
{
(
1
−
p
)
x
p
1
−
x
,
x
=
0
,
1
0
,
x
≠
0
,
1
f(x\mid p)=\left\{\begin{matrix} (1 - p)^{x} p^{1-x},x=0,1\\0,x\neq 0,1\end{matrix}\right.
f(x∣p)={(1−p)xp1−x,x=0,10,x=0,1
二项分布
n重伯努利随机实验,假设
X
∈
{
0
,
1
,
.
.
.
,
n
}
X \in \left \{ 0, 1, ..., n \right \}
X∈{0,1,...,n}表示事件1发生的次数。若事件1的发生的概率为
θ
\theta
θ, 则
X
X
X服从二项分布,记为
X
∼
B
i
n
(
n
,
θ
)
X \sim \mathrm{Bin}(n, \theta)
X∼Bin(n,θ),其概率质量函数 (Probability Mass Function, PMF)定义为:
B
i
n
(
k
;
n
,
θ
)
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
.
.
.
,
n
\mathbf{Bin}(k; n, \theta) = C_{n}^{k}p^{k}(1-p)^{n-k}, k=0,1,2,...,n
Bin(k;n,θ)=Cnkpk(1−p)n−k,k=0,1,2,...,n
从定义可以,伯努利分布是二项分布在n=1时的特例。
二项分布名称的由来:由于其PMF中使用了二项系数
C
n
k
C_{n}^{k}
Cnk,该系数是牛顿提出的二项式定理中的系数
(
x
+
y
)
n
=
C
n
k
x
k
y
n
−
k
(x+y)^{n} = C_{n}^{k} x^{k} y^{n-k}
(x+y)n=Cnkxkyn−k.
多项分布
n重多项伯努利随机实验,假设
x
=
(
x
1
,
x
2
,
.
.
.
,
x
K
)
\bm{x} = (x_{1}, x_{2}, ..., x_{K})
x=(x1,x2,...,xK)为随机向量,其中
x
j
x_{j}
xj表示事件
j
j
j发生的次数。若事件
j
j
j发生的概率为
θ
j
\theta_{j}
θj, 则
x
\bm{x}
x服从多项分布,其PMF为:
M
u
(
x
;
n
,
θ
)
=
n
!
x
1
!
x
2
!
.
.
.
x
K
!
∏
j
=
1
K
θ
j
x
j
\mathrm{Mu}(\bm{x}; n, \theta) = \frac{n!}{x_{1}!x_{2}!...x_{K}!} \prod_{j=1}^{K} \theta_{j}^{x_{j}}
Mu(x;n,θ)=x1!x2!...xK!n!j=1∏Kθjxj where
∑
j
=
1
K
x
j
=
n
\sum_{j=1}^{K} x_{j} = n
∑j=1Kxj=n
Gamma分布
Gamma函数:
Γ
(
α
)
=
∫
0
∞
t
α
−
1
e
−
t
d
t
,
α
>
0
\Gamma(\alpha) = \int_{0}^{\infin}t^{\alpha-1}e^{-t}dt, \alpha > 0
Γ(α)=∫0∞tα−1e−tdt,α>0
Gamma函数重要性质:
Γ
(
α
+
1
)
=
α
Γ
(
α
)
\Gamma (\alpha+1) = \alpha \Gamma (\alpha)
Γ(α+1)=αΓ(α)
Gamma分布的一般形式:
G
a
m
m
a
(
x
∣
α
,
β
)
=
β
α
x
α
−
1
e
−
β
x
Γ
(
α
)
Gamma(x | \alpha, \beta) = \frac{\beta^{\alpha}x^{\alpha-1}e^{-\beta x}}{\Gamma(\alpha)}
Gamma(x∣α,β)=Γ(α)βαxα−1e−βx
Beta分布
我们将提出几个问题来推导出一些结论:
问题一:
1.
X
1
,
X
2
,
.
.
.
,
X
n
∼
i
i
d
U
n
i
f
o
r
m
(
0
,
1
)
X_{1}, X_{2}, ..., X_{n} \overset{iid}{\sim} Uniform(0,1)
X1,X2,...,Xn∼iidUniform(0,1)
2. 把这n个随机变量排序后得到顺序统计量
X
(
1
)
,
X
(
2
)
,
.
.
.
,
X
(
n
)
X_{(1)}, X_{(2)}, ..., X_{(n)}
X(1),X(2),...,X(n)
3. 问
X
(
k
)
X_{(k)}
X(k)是什么分布
推导过程:
首先我们尝试计算
X
(
k
)
X_{(k)}
X(k)落在一个区间
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]的概率,也就是如下概率值:
P
(
x
≤
X
(
k
)
≤
x
+
△
x
)
=
?
P(x \leq X_{(k)} \leq x + \triangle x) = ?
P(x≤X(k)≤x+△x)=? 我们可以把
[
0
,
1
]
[0, 1]
[0,1]分成三段
[
0
,
x
)
,
[
x
,
x
+
△
x
]
,
(
x
+
△
x
,
1
]
[0, x), [x, x + \triangle x], (x + \triangle x, 1]
[0,x),[x,x+△x],(x+△x,1]
(1) 我们考虑第一种情形 —— 只有一个数落在区间
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]内
我们假设只有
X
1
X_{1}
X1落在区间
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]内,则在
[
0
,
x
)
[0, x)
[0,x)内有
k
−
1
k-1
k−1个数,
(
x
+
△
x
,
1
]
(x + \triangle x, 1]
(x+△x,1]中有
n
−
k
n-k
n−k个数,我们将此描述为事件
E
E
E:
E
=
{
X
1
∈
[
x
,
x
+
△
x
]
,
X
i
∈
[
0
,
x
)
(
i
=
2
,
.
.
.
,
k
)
,
X
i
∈
(
x
+
△
x
,
1
]
(
j
=
k
+
1
,
.
.
.
,
n
)
}
E = \left \{ X_{1} \in [x, x + \triangle x], X_{i} \in [0, x) (i=2, ..., k), X_{i} \in (x + \triangle x, 1](j=k+1, ..., n) \right \}
E={X1∈[x,x+△x],Xi∈[0,x)(i=2,...,k),Xi∈(x+△x,1](j=k+1,...,n)}
则有:
P
(
E
)
=
∏
i
=
1
n
P
(
X
i
)
=
x
k
−
1
(
1
−
x
−
△
x
)
n
−
k
△
x
=
x
k
−
1
(
1
−
x
)
n
−
k
△
x
+
o
(
△
x
)
P(E) = \prod_{i=1}^{n}P(X_{i}) = x^{k-1}(1 - x - \triangle x)^{n-k} \triangle x = x^{k-1}(1 - x)^{n-k} \triangle x + o(\triangle x)
P(E)=i=1∏nP(Xi)=xk−1(1−x−△x)n−k△x=xk−1(1−x)n−k△x+o(△x)
o
(
△
x
)
o(\triangle x)
o(△x)是
△
x
\triangle x
△x的高阶无穷小。显然
n
n
n个数落在
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]区间有
n
n
n种取法,余下
n
−
1
n-1
n−1个数中有
k
−
1
k-1
k−1个数落在
[
0
,
x
)
[0, x)
[0,x)中有
(
n
−
1
k
−
1
)
\binom{n-1}{k-1}
(k−1n−1)中组合,所以和事件
E
E
E等价的事件一共有
n
(
n
−
1
k
−
1
)
n \binom{n-1}{k-1}
n(k−1n−1)个。
(2) 接下来我们考虑第二种情形 —— 有两个数落在区间
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]内
假设
X
1
,
X
2
X_{1}, X_{2}
X1,X2落在区间
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]内, 则可描述为事件
E
′
E'
E′:
P
(
E
′
)
=
∏
i
=
1
n
P
(
X
i
)
=
x
k
−
2
(
1
−
x
−
△
x
)
n
−
k
(
△
x
)
2
=
o
(
△
x
)
P(E') = \prod_{i=1}^{n}P(X_{i}) = x^{k-2}(1 - x - \triangle x)^{n-k} (\triangle x)^{2} = o(\triangle x)
P(E′)=i=1∏nP(Xi)=xk−2(1−x−△x)n−k(△x)2=o(△x) 只要落在
[
x
,
x
+
△
x
]
[x, x+\triangle x]
[x,x+△x]内的数字超过一个,则对应事件的概率就是
o
(
△
x
)
o(\triangle x)
o(△x)
所以:
P
(
x
≤
X
(
k
)
≤
x
+
△
x
)
=
n
(
n
−
1
k
−
1
)
P
(
E
)
+
o
(
△
x
)
=
n
(
n
−
1
k
−
1
)
x
k
−
1
(
1
−
x
)
n
−
k
△
x
+
o
(
△
x
)
P(x \leq X_{(k)} \leq x + \triangle x) = n \binom{n-1}{k-1} P(E) + o(\triangle x) = n \binom{n-1}{k-1}x^{k-1}(1 - x)^{n-k} \triangle x + o(\triangle x)
P(x≤X(k)≤x+△x)=n(k−1n−1)P(E)+o(△x)=n(k−1n−1)xk−1(1−x)n−k△x+o(△x)
所以得到
X
(
k
)
X_{(k)}
X(k)的概率密度函数为:
f
(
x
)
=
l
i
m
△
x
→
0
P
(
x
≤
X
(
k
)
)
≤
x
+
△
x
)
△
x
=
n
(
n
−
1
k
−
1
)
x
k
−
1
(
1
−
x
)
n
−
k
=
n
!
(
k
−
1
)
!
(
n
−
k
)
!
x
k
−
1
(
1
−
x
)
n
−
k
,
x
∈
[
0
,
1
]
f(x) = \underset{\triangle x \rightarrow 0}{lim} \frac{P(x \leq X_{(k)}) \leq x + \triangle x)}{\triangle x} = n \binom{n-1}{k-1}x^{k-1}(1 - x)^{n-k} = \frac{n!}{(k-1)!(n-k)!}x^{k-1}(1-x)^{n-k}, x \in [0,1]
f(x)=△x→0lim△xP(x≤X(k))≤x+△x)=n(k−1n−1)xk−1(1−x)n−k=(k−1)!(n−k)!n!xk−1(1−x)n−k,x∈[0,1]
我们知道利用Gamma函数可以把很多数学概念从整数集合拓展到实数集合。我们在上式中取
α
=
k
,
β
=
n
−
k
+
1
\alpha = k, \beta = n-k+1
α=k,β=n−k+1,于是可以得到Beta分布:
f
(
x
)
=
Γ
(
α
+
β
)
Γ
(
α
)
Γ
(
β
)
x
α
−
1
(
1
−
x
)
β
−
1
f(x) = \frac{\Gamma(\alpha + \beta)}{\Gamma{(\alpha)} \Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}
f(x)=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1
Beta-Binomial共轭
问题二:
1.
X
1
,
X
2
,
.
.
.
,
X
n
∼
i
i
d
U
n
i
f
o
r
m
(
0
,
1
)
X_{1}, X_{2}, ..., X_{n} \overset{iid}{\sim} Uniform(0,1)
X1,X2,...,Xn∼iidUniform(0,1),把这n个随机变量排序后得到顺序统计量
X
(
1
)
,
X
(
2
)
,
.
.
.
,
X
(
n
)
X_{(1)}, X_{(2)}, ..., X_{(n)}
X(1),X(2),...,X(n),问
X
(
k
)
=
p
X_{(k)}=p
X(k)=p;
2.
Y
1
,
Y
2
,
.
.
.
,
Y
m
∼
i
i
d
U
n
i
f
o
r
m
(
0
,
1
)
Y_{1}, Y_{2}, ..., Y_{m} \overset{iid}{\sim} Uniform(0, 1)
Y1,Y2,...,Ym∼iidUniform(0,1),
Y
i
Y_{i}
Yi中有
m
1
m_{1}
m1个数比
p
p
p小,
m
2
m_{2}
m2个数比p大;
3. 问
P
(
p
∣
Y
1
,
Y
2
,
.
.
.
,
Y
m
)
P(p | Y_{1}, Y_{2}, ..., Y_{m})
P(p∣Y1,Y2,...,Ym)是什么分布
由于 p = X k p=X_{k} p=Xk在 X 1 , X 2 , . . . , X n X_{1}, X_{2}, ..., X_{n} X1,X2,...,Xn中是第 k k k大的,我们容易推导得到 p = X ( k ) p = X_{(k)} p=X(k)在 X 1 , X 2 , . . . , X n , Y 1 , Y 2 , . . . , Y m ∼ i i d U n i f o r m ( 0 , 1 ) X_{1}, X_{2}, ..., X_{n}, Y_{1}, Y_{2}, ..., Y_{m} \overset{iid}{\sim} Uniform(0, 1) X1,X2,...,Xn,Y1,Y2,...,Ym∼iidUniform(0,1)这 ( m + n ) (m+n) (m+n)个独立随机变量中是第 ( k + m 1 ) (k+m1) (k+m1)大的。可以按照上一节的推导,此时 p = X ( k ) p = X_{(k)} p=X(k)的概率密度是 B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) Beta(p | k+m_{1}, n-k+1+m_{2}) Beta(p∣k+m1,n−k+1+m2)。
按贝叶斯推导的逻辑:
- p = X ( k ) p = X_{(k)} p=X(k)是我们要猜测的参数,我们推导出 p p p的分布是 f ( p ) = B e t a ( p ∣ k , n − k + 1 ) f(p) = Beta(p | k, n-k+1) f(p)=Beta(p∣k,n−k+1), 这是p的先验分布;
- 数据 Y i Y_{i} Yi中有 m 1 m_{1} m1个比 p p p小,有 m 2 m_{2} m2个比 p p p大, Y i Y_{i} Yi相当于做了 m m m次伯努利实验,所以 m 1 m_{1} m1服从二项分布 B ( m , p ) B(m, p) B(m,p);
- 在给定来自数据提供的 ( m 1 , m 2 ) (m_{1}, m_{2}) (m1,m2)知识后, p p p的后验分布为 f ( p ∣ m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) f(p | m_{1}, m_{2}) = Beta(p | k + m_{1}, n-k+1+m_{2}) f(p∣m1,m2)=Beta(p∣k+m1,n−k+1+m2)。
贝叶斯参数估计的基本过程是: 先验知识 + 数据知识 = 后验分布
因此对于上面提出的问题,可以得到: B e t a ( p ∣ k , n − k + 1 ) + B i n o m C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ k + m 1 , n − k + 1 + m 2 ) Beta(p | k, n-k+1) + BinomCount(m_{1}, m_{2}) = Beta(p | k + m_{1}, n-k+1 + m_{2}) Beta(p∣k,n−k+1)+BinomCount(m1,m2)=Beta(p∣k+m1,n−k+1+m2)
更一般的,对于非负实数 α , β \alpha, \beta α,β,我们有如下关系: B e t a ( p ∣ α , β ) + B i n o m C o u n t ( m 1 , m 2 ) = B e t a ( p ∣ α + m 1 , β + m 2 ) Beta(p | \alpha, \beta) + BinomCount(m_{1}, m_{2}) = Beta(p | \alpha + m_{1}, \beta + m_{2}) Beta(p∣α,β)+BinomCount(m1,m2)=Beta(p∣α+m1,β+m2)
以上式子描述的就是Beta-Binomial共轭。
共轭的意思就是先验分布和后验分布都服从同一个分布形式。这种形式不变,我们就能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延伸到后验分布中进行解释,同时从先验变换到后验的过程中从数据中补充的只是也容易有物理解释。(我感觉有共轭后计算更容易哈,因为形式都知道了,其他的就是凑参数了。还有另一个好处是:每当有新的观测数据,就把上次的后验概率作为先验概率,乘以新数据的likelihood,然后就得到新的后验概率,而不必用先验概率乘以所有数据的likelihood得到后验概率。)
从前面的过程中可以知道,Beta分布中的参数 α , β \alpha, \beta α,β 也可以理解为物理计数,这两个参数经常被称为伪计数(pseudo-count)。基于以上逻辑,我们可以把 B e t a ( p ∣ α , β ) Beta(p | \alpha, \beta) Beta(p∣α,β) 写成下式来理解: B e t a ( p ∣ 1 , 1 ) + B i n o m C o u n t ( α − 1 , β − 1 ) = B e t a ( p ∣ α , β ) Beta(p | 1, 1) + BinomCount(\alpha-1, \beta -1) = Beta (p | \alpha, \beta) Beta(p∣1,1)+BinomCount(α−1,β−1)=Beta(p∣α,β) 其中, B e t a ( p ∣ 1 , 1 ) Beta(p|1, 1) Beta(p∣1,1)恰好是均匀分布 U n i f o r m ( 0 , 1 ) Uniform(0,1) Uniform(0,1)。
对于上式,可以从贝叶斯角度来理解。假设有一个不均匀硬币抛出正面的概率是 p p p,抛 m m m次后得到正面和反面的次数分别是 m 1 , m 2 m_{1}, m_{2} m1,m2,那按传统概率学派的观点, p p p的估计是 p ^ = m 1 m \hat{p} = \frac{m_{1}}{m} p^=mm1。而贝叶斯学派的观点是,开始对硬币的不均匀性一无所知,所以可以假设 p ∼ u n i f o r m ( 0 , 1 ) p \sim uniform(0, 1) p∼uniform(0,1), 于是有个二项分布的计数 ( m 1 , m 2 ) (m_{1}, m_{2}) (m1,m2)后,按照贝叶斯公式计算 p p p的后验分布: P ( p ∣ m 1 , m 2 ) = P ( m 1 , m 2 ∣ p ) P ( p ) P ( m 1 , m 2 ) = 1 ⋅ P ( m 1 , m 2 ∣ p ) ∫ 0 1 P ( m 1 , m 2 ∣ t ) ⋅ P ( t ) d t = ( m m 1 ) p m 1 ( 1 − p ) m 2 ∫ 0 1 ( m m 1 ) t m 1 ( 1 − t ) m 2 d t = p m 1 ( 1 − p ) m 2 ∫ 0 1 t m 1 ( 1 − t ) m 2 d t P (p | m_{1}, m_{2}) = \frac{P (m_{1}, m_{2} | p)P(p)}{P(m_{1}, m_{2})} = \frac{1 \cdot P(m_{1}, m_{2} | p)}{\int_{0}^{1} P(m_{1}, m_{2} | t) \cdot{P(t)} dt} = \frac{\binom{m}{m_{1}}p^{m_{1}}(1 - p)^{m_{2}}}{ \int _{0}^{1}\binom{m}{m_{1}}t^{m_{1}}(1 - t)^{m_{2}}dt} = \frac{p^{m_{1}}(1 - p)^{m_{2}}}{ \int _{0}^{1} t^{m_{1}}(1 - t)^{m_{2}}dt} P(p∣m1,m2)=P(m1,m2)P(m1,m2∣p)P(p)=∫01P(m1,m2∣t)⋅P(t)dt1⋅P(m1,m2∣p)=∫01(m1m)tm1(1−t)m2dt(m1m)pm1(1−p)m2=∫01tm1(1−t)m2dtpm1(1−p)m2
计算得到后验分布为正好是: B e t a ( p ∣ m 1 + 1 , m 2 + 1 ) Beta(p | m_{1}+1, m_{2}+1) Beta(p∣m1+1,m2+1)