前言
与频率学派不同,贝叶斯学派把未知的参数 θ \theta θ看成是一个随机变量,服从某种确定分布而不是一个确定值。
贝叶斯推断
P
(
θ
∣
X
)
=
P
(
X
∣
θ
)
⋅
P
(
θ
)
P
(
X
)
=
P
(
X
∣
θ
)
⋅
P
(
θ
)
∫
θ
P
(
X
∣
θ
)
⋅
P
(
θ
)
d
θ
P(\theta|X)=\frac{P(X|\theta)\cdot P(\theta)}{P(X)}=\frac{P(X|\theta)\cdot P(\theta)}{\int_{\theta}P(X|\theta)\cdot P(\theta)d\theta}
P(θ∣X)=P(X)P(X∣θ)⋅P(θ)=∫θP(X∣θ)⋅P(θ)dθP(X∣θ)⋅P(θ)
其中左边为后验,右上分别为似然和先验,右下为用于归一化的边缘分布。
贝叶斯决策
使用贝叶斯推断,预测新样本
x
˙
\dot x
x˙的概率
P
(
x
˙
∣
X
)
P(\dot x|X)
P(x˙∣X),
X
X
X为训练样本。
P
(
x
˙
∣
X
)
=
∫
θ
P
(
x
˙
,
θ
∣
X
)
d
θ
=
∫
θ
P
(
x
˙
∣
θ
)
P
(
θ
∣
X
)
d
θ
P(\dot x|X)= \int_{\theta}P(\dot x,\theta |X)d\theta=\int_{\theta}P(\dot x|\theta)P(\theta|X)d\theta
P(x˙∣X)=∫θP(x˙,θ∣X)dθ=∫θP(x˙∣θ)P(θ∣X)dθ
结果为后验的一个期望值。