共轭先验分布

最新推荐文章于 2024-05-27 16:15:13 发布

Chen_SL

最新推荐文章于 2024-05-27 16:15:13 发布

阅读量3.7k

点赞数

分类专栏：概率图模型文章标签：概率分布

本文链接：https://blog.csdn.net/chenshulong/article/details/79034710

版权

概率图模型专栏收录该内容

3 篇文章 0 订阅

订阅专栏

背景

贝叶斯估计

贝叶斯参数估计的思考过程可以用下面这个公式说明：

先 验 分 布 + 数 据 的 知 识 = 后 验 分 布 (*)

$先验分布+数据的知识=后验分布\ \ \ \ \ (*)$

共轭先验分布的提出

当没有任何观察数据时，随机变量 $\theta$ 服从概率分布 $P(\theta)$
当观测到新的数据 X 时，有如下问题：
- 可否根据新观测到的数据 $X$ ，更新参数 $\theta$
- 根据新观测到的数据可以在多大程度上改变参数 $\theta$ : $\theta \leftarrow \theta+\Delta \theta$
- 当重新估计 $\theta$ 的时候，如何给出其新的概率分布 $p(\theta|X)$

根据贝叶斯法则：

p (θ | x) = P ( x | θ ) \cdot P ( θ ) P ( x ) \propto P (x | θ) \cdot P (θ)

$p(\theta|x)=\frac{P(x|\theta) \cdot P(\theta)}{P(x)} \propto P(x|\theta) \cdot P(\theta)$ 其中

P(x|θ) $P(x|\theta)$ 表示似然函数，可以直接求得。

P(θ) $P(\theta)$ 表示

θ $\theta$ 的先验概率分布。若可以选择一个合适的先验分布

p(θ) $p(\theta)$ 能使得。 后验概率分布 $P(\theta|x)$ 与先验概率分布 $p(\theta)$ 有相同的形式，则能简化后验概率部分的求解。

定义

在贝叶斯概率理论中，如果后验概率 $P(\theta|x)$ 和先验概率 $p(\theta)$ 满足同样的分布律，那么，先验分布和后验分布叫做共轭分布。同时，先验分布叫做似然函数 $p(x|\theta)$ 的共轭先验分布。

例子

Beta-Binomial 共轭

类比于公式 $(*)$ ， Beta-Binomial 共轭结构可以用下面这个公式来说明：

B e t a (p | α, β) + B i n o m C o u n t (m 1, m 2) = B e t a (p | α + m 1, β + m 2)

$Beta(p|\alpha,\beta) + BinomCount(m_{1},m_{2}) = Beta(p|\alpha+m_{1},\beta+m_{2})$ 此处共轭的意识就是，数据符合二项分布的时候，若参数的先验分布为Beta分布，则参数的后验分布仍然为Beta分布。

证明如下：

P (p | m 1, m 2) = P ( p ) \cdot P ( m 1 , m 2 | p ) P ( m 1 , m 2 ) = B e t a ( p | α , β ) \cdot B i n o m i a l ( m 1 , m 2 | p ) \int B e t a ( t | α , β ) \cdot B i n o m i a l ( m 1 , m 2 | t ) d t = 1 B ( α , β ) p α - 1 ( 1 - p ) β - 1 \cdot C m 1 m p m 1 ( 1 - p ) m 2 \int 1 B ( α , β ) t α - 1 ( 1 - t ) β - 1 \cdot C m 1 m t m 1 ( 1 - t ) m 2 d t = p α + m 1 - 1 ( 1 - p ) β + m 2 - 1 \int t α + m 1 - 1 ( 1 - t ) β + m 2 - 1 d t

$\begin{equation} \begin{split} P(p|m_{1},m_{2}) &= \frac{P(p)\cdot P(m_{1},m_{2}|p)}{P(m_{1},m_{2})} \\ & = \frac{Beta(p|\alpha,\beta)\cdot Binomial(m_{1},m_{2}|p)}{\int Beta(t|\alpha,\beta)\cdot Binomial(m_{1},m_{2}|t)\ dt} \\ & = \frac{\frac{1}{B(\alpha,\beta)}p^{\alpha-1}(1-p)^{\beta-1}\cdot C_{m}^{m_{1}}p^{m_{1}}(1-p)^{m_{2}}}{\int \frac{1}{B(\alpha,\beta)}t^{\alpha-1}(1-t)^{\beta-1}\cdot C_{m}^{m_{1}}t^{m_{1}}(1-t)^{m_{2}}\ dt} \\ & = \frac{p^{\alpha+m_{1}-1}(1-p)^{\beta+m_{2}-1}}{\int t^{\alpha+m_{1}-1}(1-t)^{\beta+m_{2}-1} \ dt} \end{split} \end{equation}$ 计算得到的后验分布正好是

Beta(p|α+m1,β+m2) $Beta(p|\alpha+m_{1},\beta+m_{2})$

Dirichlet-Multinomial 共轭

若将Beta分布扩展到 $N$ 维 Dirichlet分布，同时将 Binomial 分布扩展到 $N$ 维 Multinomial 分布，就得到了Beta-Binomial 共轭结构。可以用下面这个公式来说明：

D i r (p ⃗ | α ⃗) + M u l t i C o u n t (m ⃗) = D i r (p ⃗ | α ⃗ + m ⃗)

$Dir(\vec p|\vec \alpha) + MultiCount(\vec m) = Dir(\vec p|\vec \alpha + \vec m)$ 此处共轭的意思就是，数据符合multinomial 分布，若参数的先验分布为Dirichlet分布，则参数的后验分布仍为Dirichlet分布。

Dirichlet 参数 $\vec p$ 的估计：
由于我们有了参数的后验概率分布为 $Dir(\vec p|\vec\alpha+\vec m)$ ，所以合理的方式是使用后验概率分布的极大值点，或者参数后验概率分布的期望值。在该文档中，我们取平均值作为参数的估计值。

E (p ⃗) = (α 1 + m 1 \sum N i = 1 ( α i + m i ), α 2 + m 2 \sum N i = 1 ( α i + m i ), \dots, α N + m N \sum N i = 1 ( α i + m i ))

$E(\vec p)=(\frac{\alpha_{1}+m_{1}}{\sum_{i=1}^{N}(\alpha_{i}+m_{i})},\frac{\alpha_{2}+m_{2}}{\sum_{i=1}^{N}(\alpha_{i}+m_{i})},\ldots,\frac{\alpha_{N}+m_{N}}{\sum_{i=1}^{N}(\alpha_{i}+m_{i})})$ 也就说对每个

pi $p_{i}$ ,我们可以用下式做参数估计：

p ̂ i = α i + m i \sum N i = 1 ( α i + m i )

$\hat p_{i}=\frac{\alpha_{i}+m_{i}}{\sum_{i=1}^{N}(\alpha_{i}+m_{i})}$ 考虑到

αi $\alpha_{i}$ 在 Dirichlet 分布中的物理意义是事件的先验伪计数，这个估计式子的含义是很直观的：每个参数的估计值是其对应事件的先验伪计数和观察到的数据中的计数之和在整体计数中的比例。

Chen_SL

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
1
评论
共轭先验分布

背景贝叶斯估计贝叶斯参数估计的思考过程可以用下面这个公式说明：先验分布+数据的知识=后验分布 (∗)先验分布+数据的知识=后验分布\ \ \ \ \ (*)共轭先验分布的提出当没有任何观察数据时，随机变量 θ\theta 服从概率分布 P(θ)P(\theta)当观测到新的数据 XX 时，有如下问题：可否根据新观测到的数据XX，更新参数 θ\theta
复制链接

扫一扫

专栏目录