第七章 Bayes方法和统计决策理论(1)
1.Bayes学派的观点
经典统计学作统计推断的信息来源,是总体信息和样本信息,即总体来自哪个分布族,还有抽样得到的样本观测值以及依据样本算得的统计量值。贝叶斯学派还依赖于先验信息,即在进行抽样之前,有关统计推断问题中未知参数的一些信息,来自资料、历史等外界因素。
先验分布:参数空间 Θ \Theta Θ上的任一概率分布都称为先验分布,这种分布主要是在抽取样本 X X X之前,对参数 θ \theta θ可能取值的一种认识,记作 F π ( θ ) F^\pi(\theta) Fπ(θ),密度函数记作 π ( θ ) \pi(\theta) π(θ)。
后验分布:在人们获取样本后,对 θ \theta θ的新认识,记作 F π ( θ ∣ x ) F^\pi(\theta|x) Fπ(θ∣x),密度函数记作 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)。这是由于样本中也包含关于参数 θ \theta θ的信息,当获得样本后,对 θ \theta θ的认知就会发生一些变化和调整。因此后验分布可以看做人们用总体信息和样本信息对先验分布作出调整的结果。
也就是说,贝叶斯理论将未知参数也看作随机变量,它与
X
X
X有着同样的地位。由贝叶斯公式,在获得样本后
θ
\theta
θ的后验密度为
π
(
θ
∣
x
)
=
f
(
x
,
θ
)
m
(
x
)
=
f
(
x
∣
θ
)
π
(
θ
)
∫
Θ
f
(
x
∣
θ
)
π
(
θ
)
d
θ
\pi(\theta|x)=\frac{f(x,\theta)}{m(x)}=\frac{f(x|\theta)\pi(\theta)}{\int_\Theta f(x|\theta)\pi(\theta)d\theta}
π(θ∣x)=m(x)f(x,θ)=∫Θf(x∣θ)π(θ)dθf(x∣θ)π(θ)
当获得后验分布以后,对未知参数 θ \theta θ的任何统计推断都必须且只能基于后验分布。
2.先验分布的确定
主观概率:主观概率是人们根据经验对事件发生机会的个人信念,这尤其适用于事件无法大量重复确定频率的情况。主观概率的来源可能是预测、专家意见、历史资料等等。
利用主观概率、频率等先验信息,可以确定先验分布。确定先验分布的方法有直方图、相对似然法、选定先验密度估计超参数(超参数指 π ( θ ) \pi(\theta) π(θ)为参数分布时里面的未知参数)等。
贝叶斯统计学是依赖于先验信息的,但没有先验信息或者先验信息极少的情况下要运用贝叶斯方法,就要无信息先验的方法。无信息先验的要求是“同等无知”,就是对参数空间 Θ \Theta Θ中每一点同等看待。如果 Θ \Theta Θ是离散有限集 { θ 1 , ⋯ , θ n } \{\theta_1,\cdots,\theta_n\} {θ1,⋯,θn},则可以取 π ( θ ) = P ( θ = θ i ) = 1 / n \pi(\theta)=\mathbf P(\theta=\theta_i)=1/n π(θ)=P(θ=θi)=1/n;如果 Θ \Theta Θ是有限连续集 [ a , b ] [a,b] [a,b],则取 π ( θ ) = 1 b − a I ( a , b ) ( θ ) \pi(\theta)=\frac1{b-a}I_{(a,b)}(\theta) π(θ)=b−a1I(a,b)(θ),但如果 Θ \Theta Θ取无限的连续集,就不能简单地找到常数概率函数。为此引入广义先验分布,它需要满足两个条件:
- π ( θ ) ≥ 0 , ∫ Θ π ( θ ) d θ = ∞ \pi(\theta)\ge0,\int_\Theta\pi(\theta)d\theta=\infty π(θ)≥0,∫Θπ(θ)dθ=∞;
- 后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)是正常的密度函数。
这样,就可以引入 π ( θ ) ≡ 1 \pi(\theta)\equiv 1 π(θ)≡1作为此时的无信息先验分布了。广义先验分布中,常数因子不影响后验密度的形式。
对于位置参数,一般表现为 f ( x − θ ) f(x-\theta) f(x−θ),选取 π ( θ ) = 1 \pi(\theta)=1 π(θ)=1作为无信息先验分布是合理的;对于尺度参数,一般表现为 σ − 1 φ ( x / σ ) \sigma^{-1}\varphi(x/\sigma) σ−1φ(x/σ),此时应该选择先验分布为 π ( σ ) = 1 / σ \pi(\sigma)=1/\sigma π(σ)=1/σ。如正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的密度函数是 f ( x ) = 1 2 π σ exp { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt {2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} f(x)=2πσ1exp{−2σ2(x−μ)2},这里 μ \mu μ是位置参数, σ \sigma σ是尺度参数。
对于非位置参数与非尺度参数,一般采用Jeffreys无信息先验,其一般步骤是:
-
写出样本的对数似然函数为
l ( θ ∣ x ) = ln [ ∏ i = 1 n f ( x i ∣ θ ) ] = ∑ i = 1 n ln f ( x i ∣ θ ) l(\boldsymbol \theta|x)=\ln\left[ \prod_{i=1}^nf(x_i|\boldsymbol \theta) \right]=\sum_{i=1}^n \ln f(x_i|\boldsymbol \theta) l(θ∣x)=ln[i=1∏nf(xi∣θ)]=i=1∑nlnf(xi∣θ) -
写出样本信息矩阵为
I ( θ ) = ( I i j ( θ ) ) p × p , I i j ( θ ) = E X ∣ θ { − ∂ 2 l ∂ θ i ∂ θ j } \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta ))_{p\times p},I_{ij}(\boldsymbol \theta)=E_{\boldsymbol X|\theta}\left\{ -\frac{\partial^2l}{\partial \theta_i \partial \theta_j} \right\} I(θ)=(Iij(θ))p×p,Iij(θ)=EX∣θ{−∂θi∂θj∂2l}
对于一维参数,信息函数就是 I ( θ ) = E X ∣ θ { − ∂ 2 l ∂ θ 2 } I(\theta)=E_{X|\theta}\{-\frac{\partial^2l}{\partial\theta^2}\} I(θ)=EX∣θ{−∂θ2∂2l}。 -
参数 θ \boldsymbol \theta θ的无信息先验就是 π ( θ ) = [ det I ( θ ) ] 1 / 2 \pi(\boldsymbol \theta)=[\det \boldsymbol I(\boldsymbol \theta)]^{1/2} π(θ)=[detI(θ)]1/2,单参数时 π ( θ ) = [ I ( θ ) ] 1 / 2 \pi(\theta)=[I(\theta)]^{1/2} π(θ)=[I(θ)]1/2。也就是说,单参数情况下无信息先验密度就是信息函数开方。
3.共轭先验分布
共轭先验分布族:设 θ \theta θ是总体分布中的参数, X X X的分布为 f ( x ∣ θ ) f(x|\theta) f(x∣θ),如果任取先验分布 π ( θ ) ∈ F \pi(\theta)\in \mathscr F π(θ)∈F与样本 x x x,后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θ∣x)仍属于 F \mathscr F F,则称 F \mathscr F F是一个共轭先验分布族。
常用的共轭先验分布如下表:
总体分布 | 参数 | 共轭先验分布 | 核 |
---|---|---|---|
二项分布 b ( n , p ) b(n,p) b(n,p) | p p p | B \Beta B分布 | p a − 1 ( 1 − p ) b − 1 p^{a-1}(1-p)^{b-1} pa−1(1−p)b−1 |
泊松分布 P ( λ ) P(\lambda) P(λ) | λ \lambda λ | Γ \Gamma Γ分布 | λ a − 1 e − b λ \lambda^{a-1}e^{-b\lambda} λa−1e−bλ |
指数分布 E ( λ ) E(\lambda) E(λ) | 1 / λ 1/\lambda 1/λ | Γ − 1 \Gamma^{-1} Γ−1分布 | λ − ( a + 1 ) e − b λ \lambda^{-(a+1)}e^{-\frac{b}{\lambda}} λ−(a+1)e−λb |
指数分布 E ( λ ) E(\lambda) E(λ) | λ \lambda λ | Γ \Gamma Γ分步 | λ a − 1 e − b λ \lambda^{a-1}e^{-b\lambda} λa−1e−bλ |
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | μ \mu μ | 正态分布 | e a μ 2 + b μ e^{a\mu^2+b\mu} eaμ2+bμ |
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) | σ 2 \sigma^2 σ2 | Γ − 1 \Gamma^{-1} Γ−1分布 | λ − ( a + 1 ) e − b λ \lambda^{-(a+1)}e^{-\frac{b}{\lambda}} λ−(a+1)e−λb |