贝叶斯推断

最新推荐文章于 2021-10-03 15:14:32 发布

NockinOnHeavensDoor

最新推荐文章于 2021-10-03 15:14:32 发布

阅读量364

点赞数

分类专栏：概率论

本文链接：https://blog.csdn.net/NockinOnHeavensDoor/article/details/80976793

版权

概率论专栏收录该内容

8 篇文章 0 订阅

订阅专栏

贝叶斯推断

贝叶斯模型观点：参数模型 $q(x;\theta)$ 中的参数 $\theta$ 是被确定的变量(deterministic variable)。

贝叶斯预测分布

训练样本是 $\mathcal D= \{x_i\}_{i=1}^n$ , $p(\theta \vert \mathcal D)$ 是给定训练样本 $\mathcal D$ 的条件下参数 $\theta$ 的后验概率(posterior probability of parameter $\theta$ ) , $p(\theta)$ 是未观测到训练样本 $\mathcal D$ 时， $\theta$ 的先验概率(prior propability).

有似然(likelihood)：
$p (D | θ) = \prod i = 1 n q (x i | θ) (1)$ $p(\mathcal D \vert \theta)= \prod_{i=1}^n q(x_i \vert \theta) \tag{1}$
其中参数模型 $q(x \vert \theta)$ 作为条件概率。

[注：因为参数被确定，即认为是已知条件，所以模型是条件概率的形式]。

有联合概率：
$p (D, θ) = p (D | θ) p (θ) (2)$ $p(\mathcal D, \theta)=p(\mathcal D \vert \theta) p(\theta) \tag{2}$
参数 $D$ 的边缘分布：

$\begin{matrix} (3) & p (D) = \int p (D, θ) d θ \end{matrix}$ $p(\mathcal D) = \int p(\mathcal D,\theta)d \theta \tag{3}$
带入得：

$p (D) = \int (\prod i = 1 n q (x i | θ)) p (θ) d θ (4)$ $p(\mathcal D) = \int \left(\prod_{i=1}^n q(x_i \vert \theta)\right)p(\theta)d \theta \tag{4}$
贝叶斯推断的解(Bayesian predictive distribution)
$\hat P_{\left(Bayes\right)}(x)$ ，是参数模型
$q(x \vert \theta)$ 在整个后验分布 $p(\theta \vert \mathcal D)$ 上的期望：

$P^(B a y e s) (x) = \int q (x | θ) p (θ | D) d θ (5)$ $\hat P_{\left(Bayes\right)}(x) = \int q(x\vert \theta)p(\theta \vert \mathcal D) d\theta \tag{5}$
由贝叶斯定理：

$p (θ | D) = p ( D | θ ) p ( θ ) p ( D ) = \prod n i = 1 q ( x i | θ ) p ( θ ) \int \prod n i = 1 q ( x i | θ ' ) p ( θ ' ) d θ ' (2) (6)$ $\begin{align} p(\theta \vert \mathcal D) &= \frac{p(\mathcal D \vert \theta)p(\theta)}{p(\mathcal D)} \\ &= \frac{\prod_{i=1}^n q(x_i \vert \theta) p(\theta)}{\int \prod_{i=1}^n q(x_i \vert \theta^{'})p(\theta^{'})d\theta^{'}} \tag{6} \end{align}$

我的理解：分子的 $\theta$ 与分母的 $\theta^{'}$ 区别开来是因为分母的 $\theta^{'}$ 要做积分运算。

最后得到：

P^(B a y e s) (x) = \int q (x | θ) \prod n i = 1 q ( x i | θ ) p ( θ ) \int \prod n i = 1 q ( x i | θ ' ) p ( θ ' ) d θ ' d θ (7)

$\hat P_{\left(Bayes\right)}(x)=\int q(x\vert \theta) \frac{\prod_{i=1}^n q(x_i \vert \theta) p(\theta)}{\int \prod_{i=1}^n q(x_i \vert \theta^{'})p(\theta^{'})d\theta^{'}} d\theta \tag{7}$

Bayes VS MLE

如图：
这里写图片描述

参数模型 $q(x \vert \theta)$ 是一个概率密度函数族，实践中，由于误差等因素可能真实数据分布 $p(x)$ 并不包含在参数模型中，如图，数据真实分布 $p(x)$ 在右侧；
MLE找到的最大似然 $\hat P_{ML}(x)$ 等价于利用KL散度(empirical KL divergence) 去找到 $p(x)$ 在参数模型 $q(x \vert \theta)$ 上的映射。
贝叶斯推断的 $\hat P_{\left(Bayes\right)}(x)$ 并不限制在参数模型函数族上，如图，它比MLE的估计更接近真实分布 $p(x)$ 。
贝叶斯推断和MLE根本的不同在于参数 $\theta$ 是确定的参数还是随机变量；更抽象的，先验概率 $p(x)$ 在贝叶斯推断下有主观知识(subjective)，这可以影响所求的解。另一方面，MLE是客观(objective)的，它的解完全由数据(data)来决定。
*

计算问题

由于参数 $\theta$ 的维度过高，会导致以下的公式计算困难：

P^(B a y e s) (x) = \int q (x | θ) p (θ | D) d θ (*)

$\hat P_{\left(Bayes\right)}(x) = \int q(x\vert \theta)p(\theta \vert \mathcal D) d\theta \tag{*}$

P^(B a y e s) (x) = \int q (x | θ) \prod n i = 1 q ( x i | θ ) p ( θ ) \int \prod n i = 1 q ( x i | θ ' ) p ( θ ' ) d θ ' d θ (**)

$\hat P_{\left(Bayes\right)}(x)= \int q(x\vert \theta) \frac{\prod_{i=1}^n q(x_i \vert \theta) p(\theta)}{\int \prod_{i=1}^n q(x_i \vert \theta^{'})p(\theta^{'})d\theta^{'}} d\theta \tag{**}$

解决办法：

分析地得到后验概率 $p(\theta \vert \mathcal D)$ 一种方法是选择先验概率 p(θ)，从而显式地得到后验概率 $p(\theta \vert \mathcal D)$ 的参数形式。
使用从后验概率中 $p(\theta \vert \mathcal D)$ 提取的点 $\hat\theta$ 去近似。
参考：《统计机器学习导论》

NockinOnHeavensDoor

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
贝叶斯推断

贝叶斯推断贝叶斯模型观点：参数模型q(x;θ)q(x;θ)q(x;\theta) 中的参数 θθ\theta 是被确定的变量(deterministic variable)。贝叶斯预测分布训练样本是 D={xi}ni=1D={xi}i=1n\mathcal D= \{x_i\}_{i=1}^n ,p(θ|D)p(θ|D)p(\theta \vert \mathcal D) 是给定训...
复制链接

扫一扫

专栏目录