Bayes分析中的无信息先验

由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。


贝叶斯统计

贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。

现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)


无信息先验分布

通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。

首先我们来考虑:没有信息的场合如何确定先验分布?

  • 无信息先验分布
  • 与其它“主观”的先验相比更接近“客观”

后面我们将会介绍几种无信息先验分布:

  • Bayes 假设
  • 位置参数的无信息先验分布
  • 尺度参数的无信息先验分布
  • Jeffreys 先验分布

Bayes 假设

有以下几点:

  • “没有 θ \theta θ的任何信息” ⇒ \Rightarrow θ \theta θ取值范围上的均匀分布作为 θ \theta θ的先验分布。
  • “Bayes 假设”:均匀分布
  • 例如:如果参数空间 Θ = ( a , b ) \Theta = (a, b) Θ=(a,b),则可用 U ( a , b ) U(a, b) U(a,b)作为先验分布

由此我们引出一些问题:

  • Θ \Theta Θ为无限区间,无法定义一个正常的先验分布
  • Bayes 假设不满足变换下的不变性

这里我们由一个例子来引出广义先验分布的概念:

设总体 X ∼ N ( θ , 1 ) X \sim N(\theta, 1) XN(θ,1),其中 θ ∈ ( − ∞ , ∞ ) = Θ \theta \in (-\infty, \infty) = \Theta θ(,)=Θ,若对 θ \theta θ既无任何信息,也无偏爱,则应取如下均匀分布:
π ( θ ) = c ,       − ∞ < θ < ∞ \pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty π(θ)=c,     <θ<
不是一个正常的概率密度函数。按Bayes公式计算:
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ − ∞ ∞ p ( x ∣ θ ) π ( θ ) d θ = 1 2 π e x p { − 1 2 ( θ − x ) 2 } \begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned} π(θx)=m(x)h(x,θ)=p(xθ)π(θ)dθp(xθ)π(θ)=2π 1exp{ 21(θx)2}

此时,给定 x x x下, θ \theta θ的后验分布为 N ( x , 1 ) N(x, 1) N(x,1)

下面我们给出广义先验分布的具体定义:

设总体 X ∼ p ( x ∣ θ ) , θ ∈ Θ X \sim p(x|\theta), \theta \in \Theta Xp(xθ),θΘ,若满足下列条件

  • π ( θ ) > 0 \pi(\theta)>0 π(θ)>0 ∫ Θ π ( θ ) d θ \int_{\Theta}\pi(\theta)d\theta Θπ(θ)dθ
  • 由此决定的后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θx)是正常的密度函数。
    则称 π ( θ ) \pi(\theta) π(θ) θ \theta θ广义先验密度

前面例子中给出的 π ( θ ) = c \pi(\theta) = c π(θ)=c就是正态均值 θ \theta θ的一个广义先验分布。常选用 π ( θ ) = 1 \pi(\theta) = 1 π(θ)=1

但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。

  • 正态总体 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2):方差 σ 2 \sigma^2 σ2,标准差 σ \sigma σ,均在 ( 0 , ∞ ) (0,\infty) (0,)上取值
  • σ \sigma σ的先验分布为 π ( σ ) \pi(\sigma) π(σ)
  • η = σ 2 \eta = \sigma^2 η=σ2的分布为:

π ( η ) ∣ d σ d η ∣ = π ( η ) / ( 2 η ) \pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta}) π(η )dηdσ=π(η )/(2η )

σ \sigma σ的无信息先验分布为常数,那么 η = σ 2 \eta = \sigma^2 η=σ2的无信息先验密度应与 η − 1 / 2 \eta^{-1/2} η1/2成比例。与Bayes假设矛盾。


位置参数的无信息先验分布

设总体 X X X的密度函数具有形式 p ( x − θ ) p(x-\theta) p(xθ) θ \theta θ称为位置参数,参数空间与样本空间均为 R \mathbb{R} R

  • Y = X + c Y=X+c Y=X+c
  • η = θ + c \eta = \theta+c η=θ+c

Y Y Y的密度为 p ( y − η ) p(y-\eta) p(yη),同样是位置参数族成员。 η \eta η θ \theta θ应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:
π ( τ ) = π ∗ ( τ ) \pi(\tau)=\pi^*(\tau) π(τ)=π(τ)
另一方面,由 η = θ + c \eta = \theta+c η=θ+c,可计算 η \eta η的无信息先验密度为:
π ∗ ( η ) = ∣ d θ d η ∣ π ( η − c ) = π ( η − c ) \pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c) π(η)=dηdθ

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值