由于课程需要,这段时间主要在学习《高等数理统计》(茆诗松等)的无信息先验部分的知识,这部分内容主要还是书中讲解的内容,但是会结合网上的一些资料以及自己的一些理解进行阐述。
贝叶斯统计
贝叶斯统计缘起于托马斯.贝叶斯(1702-1761),一位英国长老会牧师和业余数学家。在他去世后发表的论文“论有关机遇问题的求解”中, 贝叶斯定理的现代形式实际上归因于拉普拉斯(1812)。拉普拉斯重新发现了贝叶斯定理,并把它用来解决天体力学、医学甚至法学的问题。但自19世纪中叶起,随着频率学派(在下文有时也称作经典统计)的兴起,概率的贝叶斯解释逐渐被统计学主流所拒绝。
现代贝叶斯统计学的复兴肇始于Jeffreys(1939),在1950年代,经过Wald(1950),Savage(1954),Raiffic&Schlaifer(1961),Lindley(1972),De Finetti(1974)等人的努力,贝叶斯统计学逐渐发展壮大,并发展出了贝叶斯统计决策理论这个新分支。特别是到1990年代以后,随着计算方法MCMC在贝叶斯统计领域的广泛应用,解决了贝叶斯统计学长期存在的计算困难的问题,从而推动了贝叶斯统计在理论和应用领域的长足发展。(以上部分节选自网络)
无信息先验分布
通常在贝叶斯分析中,我们需要指定一个先验,但事实在很多前提下,我们是不知道其先验的,这时我们就可以采用无信息先验分布来进行分析计算。
首先我们来考虑:没有信息的场合如何确定先验分布?
- 无信息先验分布
- 与其它“主观”的先验相比更接近“客观”
后面我们将会介绍几种无信息先验分布:
Bayes 假设
位置参数的无信息先验分布
尺度参数的无信息先验分布
Jeffreys 先验分布
Bayes 假设
有以下几点:
- “没有 θ \theta θ的任何信息” ⇒ \Rightarrow ⇒ 将 θ \theta θ取值范围上的均匀分布作为 θ \theta θ的先验分布。
- “Bayes 假设”:均匀分布
- 例如:如果参数空间 Θ = ( a , b ) \Theta = (a, b) Θ=(a,b),则可用 U ( a , b ) U(a, b) U(a,b)作为先验分布
由此我们引出一些问题:
- 当 Θ \Theta Θ为无限区间,无法定义一个正常的先验分布
- Bayes 假设不满足变换下的不变性
这里我们由一个例子来引出广义先验分布
的概念:
设总体 X ∼ N ( θ , 1 ) X \sim N(\theta, 1) X∼N(θ,1),其中 θ ∈ ( − ∞ , ∞ ) = Θ \theta \in (-\infty, \infty) = \Theta θ∈(−∞,∞)=Θ,若对 θ \theta θ既无任何信息,也无偏爱,则应取如下均匀分布:
π ( θ ) = c , − ∞ < θ < ∞ \pi(\theta) = c, \ \ \ \ \ -\infty<\theta<\infty π(θ)=c, −∞<θ<∞
不是一个正常的概率密度函数。按Bayes公式计算:
π ( θ ∣ x ) = h ( x , θ ) m ( x ) = p ( x ∣ θ ) π ( θ ) ∫ − ∞ ∞ p ( x ∣ θ ) π ( θ ) d θ = 1 2 π e x p { − 1 2 ( θ − x ) 2 } \begin{aligned} \pi(\theta|x)&=\frac{h(x, \theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int_{-\infty}^{\infty}p(x|\theta)\pi(\theta)d\theta}\\ &=\frac{1}{\sqrt{2\pi}}exp\left\lbrace -\frac{1}{2}(\theta-x)^2 \right\rbrace \end{aligned} π(θ∣x)=m(x)h(x,θ)=∫−∞∞p(x∣θ)π(θ)dθp(x∣θ)π(θ)=2π1exp{
−21(θ−x)2}
此时,给定 x x x下, θ \theta θ的后验分布为 N ( x , 1 ) N(x, 1) N(x,1)。
下面我们给出广义先验分布
的具体定义:
设总体 X ∼ p ( x ∣ θ ) , θ ∈ Θ X \sim p(x|\theta), \theta \in \Theta X∼p(x∣θ),θ∈Θ,若满足下列条件
- π ( θ ) > 0 \pi(\theta)>0 π(θ)>0且 ∫ Θ π ( θ ) d θ \int_{\Theta}\pi(\theta)d\theta ∫Θπ(θ)dθ
- 由此决定的后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)是正常的密度函数。
则称 π ( θ ) \pi(\theta) π(θ)为 θ \theta θ的广义先验密度。
前面例子中给出的 π ( θ ) = c \pi(\theta) = c π(θ)=c就是正态均值 θ \theta θ的一个广义先验分布。常选用 π ( θ ) = 1 \pi(\theta) = 1 π(θ)=1。
但这样做会有一些问题,比如:很多时候Bayes假设都不满足变换下的不变性。
- 正态总体 N ( 0 , σ 2 ) N(0,\sigma^2) N(0,σ2):方差 σ 2 \sigma^2 σ2,标准差 σ \sigma σ,均在 ( 0 , ∞ ) (0,\infty) (0,∞)上取值
- σ \sigma σ的先验分布为 π ( σ ) \pi(\sigma) π(σ)
- 则 η = σ 2 \eta = \sigma^2 η=σ2的分布为:
π ( η ) ∣ d σ d η ∣ = π ( η ) / ( 2 η ) \pi(\sqrt{\eta})\left|\frac{d\sigma}{d\eta}\right| = \pi(\sqrt{\eta})/(2\sqrt{\eta}) π(η)∣∣∣∣dηdσ∣∣∣∣=π(η)/(2η)
若 σ \sigma σ的无信息先验分布为常数,那么 η = σ 2 \eta = \sigma^2 η=σ2的无信息先验密度应与 η − 1 / 2 \eta^{-1/2} η−1/2成比例。与Bayes假设矛盾。
位置参数的无信息先验分布
设总体 X X X的密度函数具有形式 p ( x − θ ) p(x-\theta) p(x−θ), θ \theta θ称为位置参数,参数空间与样本空间均为 R \mathbb{R} R。
- Y = X + c Y=X+c Y=X+c
- η = θ + c \eta = \theta+c η=θ+c
Y Y Y的密度为 p ( y − η ) p(y-\eta) p(y−η),同样是位置参数族成员。 η \eta η 与 θ \theta θ应具有相同分布。(位置变换下保持不变)所以应该有相同的无信息先验分布:
π ( τ ) = π ∗ ( τ ) \pi(\tau)=\pi^*(\tau) π(τ)=π∗(τ)
另一方面,由 η = θ + c \eta = \theta+c η=θ+c,可计算 η \eta η的无信息先验密度为:
π ∗ ( η ) = ∣ d θ d η ∣ π ( η − c ) = π ( η − c ) \pi^*(\eta) = \left|\frac{d\theta}{d\eta}\right| \pi(\eta - c) = \pi(\eta - c) π∗(η)=∣∣∣∣dηdθ∣