Bayes分析中的无信息先验

Kanny广小隶

已于 2022-05-20 10:10:48 修改

阅读量2.2w

点赞数 25

分类专栏：统计学习文章标签：贝叶斯

于 2018-06-19 17:46:15 首次发布

本文链接：https://blog.csdn.net/weixin_41929524/article/details/80674219

版权

由于课程需要，这段时间主要在学习《高等数理统计》（茆诗松等）的无信息先验部分的知识，这部分内容主要还是书中讲解的内容，但是会结合网上的一些资料以及自己的一些理解进行阐述。

贝叶斯统计

贝叶斯统计缘起于托马斯.贝叶斯（1702-1761），一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中，贝叶斯定理的现代形式实际上归因于拉普拉斯（1812）。拉普拉斯重新发现了贝叶斯定理，并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起，随着频率学派（在下文有时也称作经典统计）的兴起，概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代，经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力，贝叶斯统计学逐渐发展壮大，并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后，随着计算方法MCMC在贝叶斯统计领域的广泛应用，解决了贝叶斯统计学长期存在的计算困难的问题，从而推动了贝叶斯统计在理论和应用领域的长足发展。（以上部分节选自网络）

无信息先验分布

通常在贝叶斯分析中，我们需要指定一个先验，但事实在很多前提下，我们是不知道其先验的，这时我们就可以采用无信息先验分布来进行分析计算。

首先我们来考虑：没有信息的场合如何确定先验分布？

无信息先验分布
与其它“主观”的先验相比更接近“客观”

后面我们将会介绍几种无信息先验分布：

Bayes 假设
位置参数的无信息先验分布
尺度参数的无信息先验分布
Jeffreys 先验分布

Bayes 假设

有以下几点：

“没有 $\theta$ 的任何信息” $\Rightarrow$ 将 $\theta$ 取值范围上的均匀分布作为 $\theta$ 的先验分布。
“Bayes 假设”：均匀分布
例如：如果参数空间 $\Theta = (a, b)$ ，则可用 $U (a, b)$ 作为先验分布

由此我们引出一些问题：

当 $\Theta$ 为无限区间，无法定义一个正常的先验分布
Bayes 假设不满足变换下的不变性

这里我们由一个例子来引出广义先验分布的概念：

设总体 $\sim N(\theta, 1)$ ，其中 $\theta \in (-\infty, \infty) = \Theta$ ，若对 $\theta$ 既无任何信息，也无偏爱，则应取如下均匀分布：
$\pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty$
不是一个正常的概率密度函数。按Bayes公式计算：
$\begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned}$

此时，给定 $x$ 下， $\theta$ 的后验分布为 $N (x, 1)$ 。

下面我们给出广义先验分布的具体定义：

设总体 $\sim p(x|\theta), \theta \in \Theta$ ，若满足下列条件

$\pi(\theta)>0$ 且 $\int_{\Theta}\pi(\theta)d\theta$
由此决定的后验密度 $\pi(\theta|x)$ 是正常的密度函数。
则称 $\pi(\theta)$ 为 $\theta$ 的广义先验密度。

前面例子中给出的 $\pi(\theta) = c$ 就是正态均值 $\theta$ 的一个广义先验分布。常选用 $\pi(\theta) = 1$ 。

但这样做会有一些问题，比如：很多时候Bayes假设都不满足变换下的不变性。

正态总体 $N(0,\sigma^2)$ ：方差 $\sigma^2$ ，标准差 $\sigma$ ，均在 $(0,\infty)$ 上取值
$\sigma$ 的先验分布为 $\pi(\sigma)$
则 $\eta = \sigma^2$ 的分布为：

$\pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta})$

若 $\sigma$ 的无信息先验分布为常数，那么 $\eta = \sigma^2$ 的无信息先验密度应与 $\eta^{-1/2}$ 成比例。与Bayes假设矛盾。

位置参数的无信息先验分布

设总体 $X$ 的密度函数具有形式 $p(x-\theta)$ ， $\theta$ 称为位置参数，参数空间与样本空间均为 $\mathbb{R}$ 。

$Y = X + c$
$\eta = \theta+c$

$Y$ 的密度为 $p(y-\eta)$ ，同样是位置参数族成员。 $\eta$ 与 $\theta$ 应具有相同分布。（位置变换下保持不变）所以应该有相同的无信息先验分布：
$\pi(\tau)=\pi^*(\tau)$
另一方面，由 $\eta = \theta+c$ ，可计算 $\eta$ 的无信息先验密度为：
$\pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c)$

最低0.47元/天解锁文章