贝叶斯推断（一）

jony0917

已于 2024-03-05 18:17:35 修改

阅读量1.8k

点赞数

文章标签：概率论机器学习分类

于 2022-03-12 16:39:11 首次发布

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/123445909

版权

贝叶斯统计学

统计推断中使用的三种信息：

总体信息：总体分布或总体所属的分布簇信息
样本信息：容量为 $n$ 的样本，以充分统计量 $T(x_1,x_2,...,x_n)$
先验信息：依据经验或历史资料，对参数先验所属的分布簇和相关参数做出判断。

基于以上三种信息进行统计推断的统计学称为贝叶斯统计学。贝叶斯学派最基本的观点是：任一未知量 $\theta$ 都可看作随机变量，可用概率分布去描述，这个分布称为先验分布。而频率学派的观点是位置参数为一个固定的值。两个学派之间的主要差别在于是否利用先验信息。

先验分布的确定已有一系诶较为成熟的方法，比如经常采用共轭先验分布。

共轭先验分布：设 $\theta$ 是某分布中的一个参数， $\pi(\theta)$ 使其先验分布。假如由抽样信息算得的后验分布 $\pi(\theta|\bold{x})$ 与 $\pi(\theta)$ 同属一个分布簇，则称 $\pi(\theta)$ 为 $\theta$ 的共轭先验分布。

贝叶斯估计

依赖于参数 $\theta$ 的密度函数在经典统计学中记为 $p(x;\theta)$ ，表示参数空间 $\Theta$ 中不同参数 $\theta$ 对应不同分布。在贝叶斯推断中记为 $p(x|\theta)$ ，表示在随机变量 $\theta$ 给定某个取值时， $X$ 的条件分布。根据参数 $\theta$ 的先验信息确定先验分布 $\pi(\theta)$ 。

贝叶斯方法是生成模型的代表，贝叶斯统计学的观点看，样本数据 $\bold{x}=(x_1,x_2,...,x_n)$ 由生产过程分为两步：

首先从参数先验分布 $\pi(\theta)$ 中产生一个参数样本 $\theta'$
然后从 $p(x|\theta')$ 中产生一个样本 $\bold{x}=(x_1,x_2,...,x_n)$ 。因此样本 $\bold{x}$ 的联合条件密度函数为：

$p(\bold{x}|\theta') = \prod_{i=1}^np(x_i|\theta')$

这个联合分布综合了总体信息和样本信息，又称为似然函数。

再来考虑样本 $\bold{x}$ 和参数 $\theta$ 的联合分布，由以上的条件密度函数和参数的先验分布，得到样本和参数的联合分布为：

$h(\bold{x},\theta) = p(\bold{x}|\theta)\pi(\theta)$

这个联合分布综合了总体信息，样本信息和先验信息。

在没有样本信息时，我们只能依赖先验信息对 $\theta$ 作出判断，有了抽样样本后，可以利用后验分布 $\pi(\theta|\bold{x})$ 对 $\theta$ 作出更接近真实值的推断。对联合分布作出一下分解：

$h(\bold{x},\theta)=\pi(\theta|\bold{x})m(\bold{x})$

$\pi(\theta|\bold{x})=\frac{h(\bold{x,\theta})}{m(\bold{x})}=\frac{p(\bold{x}|\theta)\pi(\theta)}{\int_{\Theta}\bold{x}|\theta)\pi(\theta)d\theta}$

称为参数 $\theta$ 的后验分布，所谓后验分布，指的就是在观察到抽样信息后参数的分布，它利用样本信息和总体信息，对先验分布作出了调整，是对样本信息，总体信息和先验信息的综合考虑，相对先验分布 $\pi(\theta)$ 更接近 $\theta$ 的真实情况，也就是对参数 $\theta$ 的情况掌握的更多的信息，这个信息是集中了总体、样本和先验中有关 $\theta$ 的所有信息。

一个具体的例子，抛硬币实验中，假设正面朝上的概率为 $\theta$ ，为了估计 $\theta$ 的情况，进行了 $n$ 次独立实验，正面朝上的次数为 $x$ 。

例子里的样本信息是：容量为 $n$ 的样本，以及充分统计量X样本正面朝上次数，记为 $X = x$ ；总体信息是：X 服从二项分布 $X\sim b(n,\theta)$ ，下面考虑充分统计量X的分布：

$p(X=x|\theta) = (\frac{n}{x})\theta^{x}(1-\theta)^{n-x}$

也就是似然函数（这里用充分统计量的分布代替样本分布，对于后续的分析过程效果是等价的）， $\theta$ 的最大似然估计 $\theta_{MLE} = \frac{x}{n}$ 。

然后加入 $\theta$ 的先验分布，假设 $\pi(\theta)\sim Be(a, b)$ ，贝塔分布是均值和方差分别为：

$E(\theta) = \frac{a}{a+b}$

$Var(\theta) = \frac{ab}{(a+b)^2(a+b+1)}$

假设知道其他 k 个相似硬币的 $\theta$ 值为 $\theta_1,\theta_2,...\theta_k$ ，则 $\overline{\theta}=\frac{1}{k}\sum_{i=1}^k\theta_i，s^2 = \frac{1}{k-1}\sum_{i=1}^k(\theta_i-\overline{x})$ 可以作为 $E(\theta),Var(\theta)$ 的估计值，从而可以得到 $a, b$ 的矩估计值 $\hat{a},\hat{b}$ ，估计过程如下：

$\hat{E}(\theta) =\frac{\hat{a}}{\hat{a}+\hat{b}}= \overline{\theta}, \hat{Var}(\theta)=\frac{\hat{a}\hat{b}}{(\hat{a}+\hat{b})^2(\hat{a}+\hat{b}+1)}=s^2$

得到

$\hat{a}=\overline{\theta}[\frac{(1-\overline{\theta})\overline{\theta}}{s^2} - 1]$

$\hat{b}=(1 - \overline{\theta})[\frac{(1-\overline{\theta})\overline{\theta}}{s^2} - 1]$

至此，我们得到先验分布 $\pi(\theta) \sim Be(\hat{a},\hat{b})$ ，下面将先验估计加入到似然函数，推导出 $\theta$ 的后验分布：

$\pi(\theta)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\theta^{a-1}(1-\theta)^{b-1}$

$\pi(\theta|\bold{x}) = \frac{p(x|\theta)\pi(\theta)}{\int_{\Theta}p(x|\theta)\pi(\theta)d\theta}$

$\frac{\Gamma(\hat{a}+\hat{b}+n)}{\Gamma(\hat{a}+x)\Gamma(\hat{b}+n-x)}\theta^{\hat{a}+x-1}(1-\theta)^{\hat{b}+n-x-1}$

可以看到后验分布综合了：

样本信息：抽样n次，正面向上次数x
总体信息： $\sim b(n, \theta)$
先验信息： $\pi(\theta) \sim Be(\hat{a}, \hat{b}), \hat{a}=\overline{\theta}[\frac{(1-\overline{\theta})\overline{\theta}}{s^2} - 1], \hat{b}=(1 - \overline{\theta})[\frac{(1-\overline{\theta})\overline{\theta}}{s^2} - 1]$

利用后验分布，首先可以对参数 $\theta$ 进行参数估计，得到相应估计值 $\hat{\theta}$ ，估计的方式不同得到不同的估计值；常用方法是进行均方误差最小估计，即：

$\hat{\theta}_B = argmin_{\hat{\theta}} E_{\theta\sim\pi(\theta|\bold{x})}[(\hat{\theta}-\theta)^2]$

后验均方误差最小估计 $\hat{\theta}_B$ 也称为参数 $\theta$ 的贝叶斯估计（Bayesian Estimator）。

下面来求解参数的贝叶斯估计：

$E_{\theta\sim\pi(\theta|\bold{x})}[(\hat{\theta}-\theta)^2] = \int_{\Theta}(\hat{\theta}-\theta)^2\pi(\theta|\bold{x})d\theta$

$=\hat{\theta}^2 - 2\hat{\theta}\int_{\Theta}\theta\pi(\theta|\bold{x})d\theta+\int_{\Theta}\theta^2\pi(\theta|\bold{x})d\theta$

得到一个关于 $\hat{\theta}$ 的二次三项式，二次项系数为正，必然存在最小值，令倒数为零，等到最小值解：

$\hat{\theta}_B = \int_{\Theta}\theta\pi(\theta|\bold{x})d\theta = E_{\theta\sim \pi(\theta|\bold{x})}(\theta) = E(\theta|\bold{x})$

可以看出 $\theta$ 的贝叶斯估计就是 $\theta$ 的后验期望 $E(\theta|\bold{x})$ 。并且可以证明，此时的后验均方误差也就是 $\theta$ 的后验方差 $Var(\theta|\bold{x})$ ，这里不展开。

类似可以证明，在已知后验分布 $\pi(\theta|\bold{x})$ 的情况下，参数函数 $g(\theta)$ 在均方误差下的贝叶斯估计为：

$\hat{g}(\theta)_B = E[g(\theta)|\bold{x}]$

贝叶斯推断（Bayesian Inference）

考虑这样一个预测问题，给定

总体信息： $\sim p(X | \theta)$
样本信息：n次独立抽样的观测值 $\bold{x}=(x_1,x_2,...,x_n)$
先验信息： $\theta \sim \pi(\alpha)$

预测未来 $x$ 的取值。

综合总体、样本和先验信息，利用贝叶斯公式，得到参数后验分布 $\pi(\theta|\bold{x})$ 。利用贝叶斯后验分布预测未来样本取值的过程称为贝叶斯推断，一般分为以下几个步骤：

集中总体、样本和先验信息，得到参数贝叶斯后验分布 $\pi(\theta|\bold{x})$
数据后验预测分布 $p(x|\bold{x}) = \int_{\theta}p(x|\theta)\pi(\theta|\bold{x})d\theta$ ，相对先验预测分布 $\int_{\theta}p(x|\theta)p(\theta)d\theta$ ，后验预测分布加入了样本信息，因此更接近真实的预测分布。
对后验预测分布 $p(X|\bold{x})$ 做适当的提取，可得到后验预测均值 $E(X|\bold{x}) = \int_{x}xp(x|\bold{x})dx$ 和后验预测方差 $Var(X|\bold{x}) = \int_{\theta}(x-E(X|\bold{x}))\pi(\theta|\bold{x})d\theta$

下面通过一个完整的例子说明贝叶斯推断的过程：

视频推荐领域经典问题是要根据视频的历史展现次数 $n$ 和播放次数 $k$ ，估计视频的点击率。下面采用贝叶斯方式对视频点击率 $\theta$ 进行估计，并对未来点击进行预估。考虑视频播放次数 $T(\bold{x}) = k$ ，为二项分布的充分统计量

首先假设视频点击率 $\theta$ 的先验分布 $\theta\sim Be(a, b)$ ，并用相似视频估计参数 $a, b$ ，记为 $\hat{a},\hat{b}$
考虑正样本数量，也就是似然函数为 $p(T(\bold{x}) = k|\theta)=(\frac{n}{k})\prod_{i=1}^np(x|\theta)=(\frac{n}{k})\theta^k(1-\theta)^{n-k}$
综合以上信息，得到参数后验分布 $\pi(\theta|T(\bold{x})=k) = \frac{p(T(\bold{x})=k|\theta)p(\theta)}{p(T(\bold{x})=k)} = \frac{p(T(\bold{x})=k|\theta)p(\theta)}{\int_{\theta}p(T(\bold{x})=k|\theta)p(\theta)d\theta} = \frac{\Gamma(n+a+b)}{\Gamma(a+k)\Gamma(b+n-k)}\theta^{a+k-1}(1-\theta)^{b+n-k-1}$
预测值似然函数 $\begin {equation} p(x|\theta)=\left\{ \begin{aligned} \theta, x=1\\ 1-\theta, x=0 \end{aligned} \right. \end{equation}$
预测值后验分布 $p(x|T(\bold{x}=k)) = \int_{\theta} p(x|\theta)\pi(\theta|T(\bold{x}=k))d\theta$
计算期望预测值期望

$E(x|T(\bold{x}=k))=1 * p(x=1|T(\bold{x}=k)) + 0 * p(x=0|T(\bold{x}=k)) = \int_{\theta} p(x=1|\theta)\pi(\theta|T(\bold{x}=k))d\theta$

$\int_{\theta} \theta\pi(\theta|T(\bold{x}=k))d\theta$

$=\frac{a+k}{a+b+n}$