什么是共轭性
一个分布 P P P是另一个分布 Q Q Q的共轭,则这两个分布相乘,分布形式与 P P P相同(同族)。
共轭先验与贝叶斯方法
对于已有数据集 x \mathbf x x,记似然估计为 P 1 ( x ∣ λ ) P_1(\bf x|\lambda) P1(x∣λ),其中 λ \lambda λ是参数,先验分布为 P 2 ( λ ; θ ) P_2(\lambda;\theta) P2(λ;θ),其中 θ \theta θ是参数先验分布的已知有关参数。
则参数的后验分布可以写为
P
(
λ
∣
x
;
θ
)
=
P
1
(
x
∣
λ
)
P
2
(
λ
;
θ
)
P
(
x
)
P(\lambda| \mathbf{x}; \theta) = \frac{P_1(\mathbf x|\lambda)P_2(\lambda;\theta)}{P(\bf x)}
P(λ∣x;θ)=P(x)P1(x∣λ)P2(λ;θ)
如果
P
2
P_2
P2是
P
1
P_1
P1的共轭分布,则
P
1
(
x
∣
λ
)
P
2
(
λ
;
θ
)
=
κ
(
x
,
θ
)
P
2
(
λ
;
θ
~
)
P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
其中
κ
(
x
,
θ
)
\kappa(\mathbf x, \theta)
κ(x,θ)是一个
λ
\lambda
λ无关的常数,
P
2
(
λ
;
θ
~
)
P_2(\lambda; \tilde \theta)
P2(λ;θ~)与
P
2
(
λ
;
θ
)
P_2(\lambda; \theta)
P2(λ;θ)有同样的形式。
由于概率对
λ
\lambda
λ积分为1,所以
κ
(
x
,
θ
)
=
P
(
x
)
\kappa(\mathbf x, \theta) =P(\mathbf x)
κ(x,θ)=P(x),即
P
(
λ
∣
x
;
θ
)
=
P
2
(
λ
;
θ
~
)
P(\lambda| \mathbf x; \theta)=P_2(\lambda; \tilde \theta)
P(λ∣x;θ)=P2(λ;θ~)
共轭分布的优势一
- 共轭先验的好处在于保证了后验分布是一个已知形式的闭式解。
- 只要能把 P 2 P_2 P2的参数辨识出来,系数就可以不用在乎。例如先验分布为高斯分布,且是数据分布的共轭分布。那么只需把后验分布的均值和方差通过指数项系数辨识出来。不用在乎常数项。
贝叶斯密度预测
在给定数据集
x
\mathbf x
x后,
x
∗
x^*
x∗处的密度概率为
P
(
x
∗
∣
x
)
=
∫
P
1
(
x
∗
∣
λ
)
P
(
λ
∣
x
;
θ
)
d
λ
=
∫
P
1
(
x
∗
∣
λ
)
P
2
(
λ
;
θ
~
)
d
λ
=
∫
κ
(
x
∗
,
θ
~
)
P
2
(
λ
;
θ
˘
)
d
λ
=
κ
(
x
∗
,
θ
~
)
\begin{aligned} P(x^*| \mathbf x) &= \int P_1(x^* | \lambda)P(\lambda|\mathbf x; \theta)d\lambda \\ &=\int P_1(x^*|\lambda)P_2(\lambda; \tilde \theta)d\lambda \\ &= \int \kappa(x^*, \tilde \theta)P_2(\lambda; \breve \theta) d\lambda \\ &= \kappa(x^*, \tilde \theta) \end{aligned}
P(x∗∣x)=∫P1(x∗∣λ)P(λ∣x;θ)dλ=∫P1(x∗∣λ)P2(λ;θ~)dλ=∫κ(x∗,θ~)P2(λ;θ˘)dλ=κ(x∗,θ~)
共轭分布的优势二
贝叶斯的密度预测结果表达式居然是 κ ( x ∗ , θ ~ ) \kappa(x^*, \tilde \theta) κ(x∗,θ~),是一个形式简单的闭式解!
总结
对于共轭先验,只要把
P
1
(
x
∣
λ
)
P
2
(
λ
;
θ
)
=
κ
(
x
,
θ
)
P
2
(
λ
;
θ
~
)
P_1(\mathbf x|\lambda)P_2(\lambda;\theta) = \kappa (\mathbf x, \theta) P_2(\lambda; \tilde \theta)
P1(x∣λ)P2(λ;θ)=κ(x,θ)P2(λ;θ~)
当中的
κ
(
x
,
θ
)
\kappa (\mathbf x, \theta)
κ(x,θ)和
θ
~
(
x
,
θ
)
\tilde \theta (\mathbf x, \theta)
θ~(x,θ)的表达式搞清楚,就能直接得到贝叶斯参数估计和密度估计的结果。
常见的似然与共轭
似然函数(数据分布) | 共轭先验 |
---|---|
Bernoulli分布 | Beta分布 |
多类分布 | Dirichlet分布 |
高斯分布 | 高斯分布(方差已知) |
一维高斯分布 | 逆Gamma分布(均值已知) |
一维高斯分布 | 正态逆Gamma分布 |
高维高斯分布 | 逆Wishart分布(均值已知) |
高维高斯分布 | 正态逆Wishart分布 |
参考文献:
[1] Prince S J D. Computer vision: models, learning, and inference[M]. Cambridge University Press, 2012. 50-64.