贝叶斯分析——单参数模型(上)

最新推荐文章于 2022-02-10 15:53:24 发布

Jakob_Hu

最新推荐文章于 2022-02-10 15:53:24 发布

阅读量2.3k

点赞数 2

本文链接：https://blog.csdn.net/Jakob_Hu/article/details/94450220

版权

单参数模型

Informative prior distribution

模型中只含有一个待估参数，包括二项分布、正态分布、泊松分布和指数分布四类经典的模型。在推导过程中对贝叶斯分析中常用的一些概念和计算方法进行说明。

Informative prior distribution

1. binomial distribution with different prior distributions

二项分布概率计算公式，
$p(y|\theta)=Binom(y|n,\theta)=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}$
形式可表示为，称为二项分布的 likelihood，其中 $\theta$ 是待估计的参数(成功概率)，
$p(y|\theta)\propto \theta^a\cdot (1-\theta)^b$
如果待估计参数 $\theta$ 的先验分布与该形式相同，且拥有自己的 $a$ 和 $b$ 参数值，称为 prior，
$p(\theta)\propto \theta^{\alpha -1}(1-\theta)^{\beta-1}$
当 $\theta$ 服从的Beta分布参数 $\alpha$ 和 $\beta$ 固定(即寻找到 $\theta$ 合理的先验分布)，则待估计参数 $\theta$ 的后验分布 $p(\theta|y)$ 可用如下公式计算得到，
$posterior\propto prior × likelihood$
即，
$p(\theta|y)\propto \theta^y(1-\theta)^{n-y} \theta^{\alpha -1}(1-\theta)^{\beta-1}\\=\theta^{y+\alpha-1}(1-\theta)^{n-y+\beta-1}\\=Beta(\theta|\alpha+y,\beta+n-y)$
此时带估计参数 $\theta$ 的先验分布和后验分布形式相同，也得到二项分布的共轭先验分布是Beta分布。依据Beta分布的性质，待估计参数 $\theta$ 的后验均值及后验方差为，
$E(\theta|y)=\frac{\alpha+y}{\alpha+\beta+n}\\var(\theta|y)=\frac{(\alpha+y)(\beta+n-y)}{(\alpha+\beta+n)^2(\alpha+\beta+n+1)}=\frac{E(\theta|y)[1-E(\theta|y)]}{\alpha+\beta+n+1}$
当先验分布参数 $\alpha$ 和 $\beta$ 的值固定， $y$ 和 $n - y$ 的值去某个大值的时候，
$E(\theta|y)\approx\frac{y}{n}\\var(\theta|y)\approx\frac{1}{n}×\frac{y}{n}×(1-\frac{y}{n})$
在实践中，如果将 $\theta$ 转换为logit形式，即 $log(\frac{\theta}{1-\theta})$ ，并使用正态分布进行近似会得到更精确的效果。取logit形式而不直接对 $\theta$ 进行正态分布近似的原因是，logit方式将 $\theta$ 的范围从 $[0, 1]$ 拓展到 $[- \infty, + \infty]$ ，更适合进行正态近似。

2. conjugate prior distribution, exponential families, sufficient statistics

常见的正态分布、卡方分布、伯努利分布、泊松分布、β-分布、γ-分布等都属于exponential family。若一个分布属于exponential family，则其参数一定遵循如下形式，
$p(y_i|θ)=f(y_i)g(\theta)e^{\phi(\theta)^Tu(y_i)}$
其中， $\phi(\theta)$ 和 $u(y_i)$ 是与 $\theta$ 相同维度的向量。 $\phi(\theta)$ 称为"natural parameter"。当 $y=(y_1,y_2,...y_n)$ ，则相应的likelihood可表示为，
$p(y|\theta)=\prod_{i=1}^nf(y_i)\cdot g(\theta)^n\cdot e^{\phi(\theta)^T\sum_{i=1}^nu(y_i)}$
对于所有的 $n$ 和 $y$ ，具有固定的形式，
$p(y|\theta)\propto g(\theta)^n\cdot e^{\phi(\theta)^Tt(y)}$
其中 $t(y)=\sum_{i=1}^nu(y_i)$ ，称为"sufficient statistic for θ"，因为θ的似然取决于数据 $y$ 的值只能通过 $t (y)$ 。如果 $\theta$ 的先验分布为，
$p(\theta)\propto g(\theta)^\eta e^{\phi(\theta)^T\nu}$
则 $\theta$ 的后验概率为，
$p(\theta|y)\propto g(\theta)^{\eta+n} e^{\phi(\theta)^T(\nu+t(y))}$

3. estimating normal mean with known variance

正态分布均值 $\theta$ 以及方差 $\sigma^2$ ，其中方差未知。

1) single data point

假设该数据点属于某个正态分布，
$p(y|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(y-\theta)^2}$
假设 $\theta$ 的共轭先验分布形式为，
$p(\theta)=e^{A\theta^2+B\theta+C}\propto e^{-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2}$
即 $\theta\sim N(\mu_0, \tau_0^2)$ ，可以得到参数 $\theta$ 的后验概率，
$p(\theta)\propto e^{-\frac{1}{2}(\frac{(y-\theta)^2}{\sigma^2}+\frac{(\theta-\mu_0)^2}{\tau_0^2})}\propto e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2}$
故 $\theta|y\sim N(\mu_1,\tau_1^2)$ ，其中
$\mu_1=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{1}{\sigma^2}y}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_1^2}=\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}$
此时，方差的倒数被称为"precision"，且 $posterior\_precision=prior\_precision+data\_precision$ 。
$\mu_1=\mu_0+(y-\mu_0)\frac{\tau_0^2}{\tau_0^2+\sigma^2}\\\mu_1=y-(y-\mu_0)\frac{\sigma^2}{\tau_0^2+\sigma^2}$
在一些极端条件下，后验均值 $\mu_1$ 等于先验均值 $\mu_0$ 或观测值 $y$ ，
当 $y=\mu_0$ 或 $\tau_0^2=0$ 时， $\mu_1=\mu_0$ ；
当 $y=\mu_0$ 或 $\sigma^2=0$ 时， $\mu_1=y$ 。
由此可得后验预测分布，
$p(\widetilde{y}|y)=\int p(\widetilde{y}|\theta)p(\theta|y)d\theta\propto \int e^{-\frac{1}{2\sigma^2}(\widetilde{y}-\theta)^2}e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2}d\theta$
后验预测分布的均值和方差满足，
$E(\widetilde{y}|y)=E(E(\widetilde{y}|\theta,y)|y)=E(\theta|y)=\mu_1\\var(\widetilde{y}|y)=E(var(\widetilde{y}|\theta,y)|y)+var(E(\widetilde{y}|\theta,y)|y)\\=var(\sigma^2|y)+var(\theta|y)=\sigma^2+\tau_1^2$
即后验预测分布的均值与 $\theta$ 的后验均值相等；方差由两部分组成一部分是已知的方差 $\sigma^2$ ，另一部分是由于 $\theta$ 的不确定性产生的 $\tau_1^2$ 。

2) multiple observations

当存在多个观测数据， $y=(y_1,y_2,...y_n)$ ，则相应的likelihood可表示为，
$p(y|\theta)=p(\theta)\prod_{i=1}^np(y_i|\theta)\\\propto e^{-\frac{1}{2\tau_0^2}(\theta-\mu_0)^2}\prod_{i=1}^ne^{-\frac{1}{2\sigma_1^2}(y_i-\theta)^2}\\\propto e^{-\frac{1}{2}(\frac{1}{\tau_0^2}(\theta-\mu_0)^2+\frac{1}{\sigma^2}\sum_{i=1}^n(y_i-\theta)^2)}$
则待估计参数 $\theta$ 的后验分布，
$p(\theta|y_1,y_2,...y_n)=p(\theta|\bar{y})=N(\theta|\mu_n,\tau_n^2)$
，其中
$\mu_n=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{n}{\sigma^2}\bar{y}}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_n^2}=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}$
当 $\tau_0\to∞$ 或 $n\to∞$ 时， $p(\theta|y)\approx N(\theta|\bar{y},\frac{\sigma^2}{n})$ 。

4. estimating normal variance with known mean

此时轮换，改为方差未知的正态分布。此时likelihood计算公式满足，
$p(y|\sigma^2)\propto \sigma^{-n}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\theta)^2}\\=(\sigma^2)^{-\frac{n}{2}}e^{-\frac{n}{2\sigma^2}\nu}$
其中，
$\nu=\frac{1}{n}\sum_{i=1}^n(y_i-\theta)^2$
此时， $\sigma^2$ 的共轭先验分布是inverse-gamma分布，
$p(\sigma^2)\propto (\sigma^2)^{-\alpha+1}e^{-\frac{\beta}{\sigma^2}}$
一种简便的设置参数的方式是初始化一个inverse-chi-square分布（这种分布与inverse-gamma的关系看维基百科或参考书），可得到待估计参数 $\sigma^2$ 的后验分布，
$p(\sigma^2|y)\propto p(\sigma^2)p(y|\sigma^2)$
最终可得，
$\sigma^2|y\sim Inv-\chi^2(\nu_0+n,\frac{\nu_0\sigma^2+n\nu}{\nu_0+n})$