贝叶斯定理
P
(
A
∣
B
)
=
P
(
B
∣
A
)
∗
P
(
A
)
P
(
B
)
P(A|B) =\frac{P(B|A) * P(A)}{ P(B)}
P(A∣B)=P(B)P(B∣A)∗P(A)
其中,
P
(
A
∣
B
)
P(A|B)
P(A∣B)表示在观测到
B
B
B的条件下,事件
A
A
A发生的概率,也被称为后验概率。
P
(
B
∣
A
)
P(B|A)
P(B∣A)表示在事件
A
A
A发生的条件下,观测到
B
B
B的概率,也称为似然函数。
P
(
A
)
P(A)
P(A)表示事件
A
A
A的先验概率,即在观测到
B
B
B之前对
A
A
A的概率进行的估计。
P
(
B
)
P(B)
P(B)表示观测到B的边缘概率。
分布密度PDF
-
分布密度(Probability Density Function,简称PDF),也称概率密度函数,常记为 p ( x ) p(x) p(x)。
-
对于连续型随机变量,概率分布无法通过简单的概率值来描述,因此使用分布密度PDF来表示。
-
分布密度具有以下特性:
- 分布密度的值必须是非负的,即在所有取值范围内的函数值都大于等于零。
- 整个取值范围内的分布密度的积分等于1
-
下文中提到的分布如无特殊说明,均指的是分布密度
分布函数CDF
-
分布函数(Cumulative Distribution Function,CDF),也称为累积分布函数。
-
对于随机变量X,其分布函数 F ( x ) F(x) F(x)定义为: F ( x ) = P ( X ≤ x ) F(x) = P(X ≤ x) F(x)=P(X≤x),即,分布函数 F ( x ) F(x) F(x)表示随机变量 X X X小于等于 x x x的概率。
-
分布函数具有以下特性:
- F ( x ) F(x) F(x)是一个非递减函数,即对于任意 x 1 x_1 x1和 x 2 x_2 x2 ( x 1 ≤ x 2 ) (x1 ≤ x2) (x1≤x2),有 F ( x 1 ) ≤ F ( x 2 ) F(x1) ≤ F(x2) F(x1)≤F(x2)。
- F ( x ) F(x) F(x)的取值范围在 [ 0 , 1 ] [0, 1] [0,1]之间,即 0 ≤ F ( x ) ≤ 1 0 ≤ F(x) ≤ 1 0≤F(x)≤1。
- 当 x x x趋于负无穷时, F ( x ) F(x) F(x)趋近于0;当 x x x趋于正无穷时, F ( x ) F(x) F(x)趋近于 1 1 1。
PDF与CDF之间的关系?
- 简而言之,CDF是PDF的积分,而PDF是CDF的导数。
期望
- 离散情形: E ( X ) = ∑ i = 1 n x i ⋅ p i E(X) = \sum_{i=1}^n x_i ·p_i E(X)=i=1∑nxi⋅pi
- 连续情形: E ( X ) = ∫ x x ⋅ p ( x ) d x E(X) = \int_{x} x· p(x)dx E(X)=∫xx⋅p(x)dx
- 常用公式
- E ( X + Y ) = E ( X ) + E ( Y ) E(X+Y)=E(X)+E(Y) E(X+Y)=E(X)+E(Y)
- E ( X Y ) = E ( X ) ∗ E ( Y ) E(XY) = E(X) * E(Y) E(XY)=E(X)∗E(Y),仅当 X , Y X,Y X,Y相互独立时成立
- E ( C ) = C E(C)=C E(C)=C , C C C为常数
- E ( k X ) = k E ( X ) E(kX)=kE(X) E(kX)=kE(X) , k k k为常数
方差
- 离散情形: D ( X ) = ∑ i = 1 n ( x i − E ( X ) ) 2 ⋅ p i D(X) = \sum_{i=1}^n (x_i - E(X))^2 · p_i D(X)=i=1∑n(xi−E(X))2⋅pi
- 连续情形: D ( X ) = ∫ x ( x i − E ( X ) ) 2 ⋅ p ( x ) d x D(X) = \int_x (x_i - E(X))^2 ·p(x)dx D(X)=∫x(xi−E(X))2⋅p(x)dx
- 常用公式
- D ( X + Y ) = D ( X ) + D ( Y ) D(X+Y)=D(X)+D(Y) D(X+Y)=D(X)+D(Y),仅当 X , Y X,Y X,Y相互独立时成立
- D ( C ) = 0 D(C)=0 D(C)=0 , C C C为常数
- D ( k X ) = k 2 D ( X ) D(kX)=k^2D(X) D(kX)=k2D(X) , k k k为常数
贝叶斯相关术语的符号定义
假设有一组独立同分布的样本 X = ( x 1 , x 2 , . . . , x n ) X=(x_1,x_2,...,x_n) X=(x1,x2,...,xn)是从参数为 θ \theta θ的总体分布 f ( X ∣ θ ) f(X|\theta) f(X∣θ)采样而来,而 θ \theta θ又服从参数为 λ \lambda λ的先验分布 π ( θ ) \pi(\theta) π(θ),则有如下的定义:
- 超参数: λ \lambda λ
- 先验分布: π ( θ ∣ λ ) \pi(\theta|\lambda) π(θ∣λ),没有超参数时也写做 π ( θ ) \pi(\theta) π(θ)
- 总体分布: f ( X ∣ θ ) f(X|\theta) f(X∣θ)
- 样本似然: ∏ i = 1 n f ( x i ∣ θ ) \prod_{i=1}^nf(x_i|\theta) ∏i=1nf(xi∣θ),建立在样本独立同分布的基础之上
- 参数 θ \theta θ与样本 X X X的联合分布: f ( X , θ ) = π ( θ ) f ( X ∣ θ ) f(X,\theta)=\pi(\theta)f(X|\theta) f(X,θ)=π(θ)f(X∣θ)
- 边缘分布: 通常记为 m ( X ) m(X) m(X),由联合分布对参数 θ \theta θ求积分得到,即 m ( X ) = ∫ θ f ( X , θ ) d θ = ∫ θ f ( X ∣ θ ) π ( θ ) d θ m(X)=\int_{\theta}f(X,\theta)d\theta=\int_{\theta}f(X|\theta)\pi(\theta)d\theta m(X)=∫θf(X,θ)dθ=∫θf(X∣θ)π(θ)dθ
- 后验分布: 通常记为 π ( θ ∣ X ) \pi(\theta|X) π(θ∣X),表示经过样本信息修正过后的参数分布 π ( θ ∣ X ) = f ( X , θ ) m ( X ) = π ( θ ) f ( X ∣ θ ) ∫ θ f ( X ∣ θ ) π ( θ ) d θ \pi(\theta|X)=\frac{f(X,\theta)}{m(X)}=\frac{\pi(\theta)f(X|\theta)}{\int_{\theta}f(X|\theta)\pi(\theta)d\theta} π(θ∣X)=m(X)f(X,θ)=∫θf(X∣θ)π(θ)dθπ(θ)f(X∣θ)