17.第七章 Bayes方法和统计决策理论(1)

第七章 Bayes方法和统计决策理论(1)

1.Bayes学派的观点

经典统计学作统计推断的信息来源,是总体信息和样本信息,即总体来自哪个分布族,还有抽样得到的样本观测值以及依据样本算得的统计量值。贝叶斯学派还依赖于先验信息,即在进行抽样之前,有关统计推断问题中未知参数的一些信息,来自资料、历史等外界因素。

先验分布:参数空间 Θ \Theta Θ上的任一概率分布都称为先验分布,这种分布主要是在抽取样本 X X X之前,对参数 θ \theta θ可能取值的一种认识,记作 F π ( θ ) F^\pi(\theta) Fπ(θ),密度函数记作 π ( θ ) \pi(\theta) π(θ)

后验分布:在人们获取样本后,对 θ \theta θ的新认识,记作 F π ( θ ∣ x ) F^\pi(\theta|x) Fπ(θx),密度函数记作 π ( θ ∣ x ) \pi(\theta|x) π(θx)。这是由于样本中也包含关于参数 θ \theta θ的信息,当获得样本后,对 θ \theta θ的认知就会发生一些变化和调整。因此后验分布可以看做人们用总体信息和样本信息对先验分布作出调整的结果。

也就是说,贝叶斯理论将未知参数也看作随机变量,它与 X X X有着同样的地位。由贝叶斯公式,在获得样本后 θ \theta θ的后验密度为
π ( θ ∣ x ) = f ( x , θ ) m ( x ) = f ( x ∣ θ ) π ( θ ) ∫ Θ f ( x ∣ θ ) π ( θ ) d θ \pi(\theta|x)=\frac{f(x,\theta)}{m(x)}=\frac{f(x|\theta)\pi(\theta)}{\int_\Theta f(x|\theta)\pi(\theta)d\theta} π(θx)=m(x)f(x,θ)=Θf(xθ)π(θ)dθf(xθ)π(θ)

当获得后验分布以后,对未知参数 θ \theta θ的任何统计推断都必须且只能基于后验分布。

2.先验分布的确定

主观概率:主观概率是人们根据经验对事件发生机会的个人信念,这尤其适用于事件无法大量重复确定频率的情况。主观概率的来源可能是预测、专家意见、历史资料等等。

利用主观概率、频率等先验信息,可以确定先验分布。确定先验分布的方法有直方图、相对似然法、选定先验密度估计超参数(超参数指 π ( θ ) \pi(\theta) π(θ)为参数分布时里面的未知参数)等。

贝叶斯统计学是依赖于先验信息的,但没有先验信息或者先验信息极少的情况下要运用贝叶斯方法,就要无信息先验的方法。无信息先验的要求是“同等无知”,就是对参数空间 Θ \Theta Θ中每一点同等看待。如果 Θ \Theta Θ是离散有限集 { θ 1 , ⋯   , θ n } \{\theta_1,\cdots,\theta_n\} {θ1,,θn},则可以取 π ( θ ) = P ( θ = θ i ) = 1 / n \pi(\theta)=\mathbf P(\theta=\theta_i)=1/n π(θ)=P(θ=θi)=1/n;如果 Θ \Theta Θ是有限连续集 [ a , b ] [a,b] [a,b],则取 π ( θ ) = 1 b − a I ( a , b ) ( θ ) \pi(\theta)=\frac1{b-a}I_{(a,b)}(\theta) π(θ)=ba1I(a,b)(θ),但如果 Θ \Theta Θ取无限的连续集,就不能简单地找到常数概率函数。为此引入广义先验分布,它需要满足两个条件:

  • π ( θ ) ≥ 0 , ∫ Θ π ( θ ) d θ = ∞ \pi(\theta)\ge0,\int_\Theta\pi(\theta)d\theta=\infty π(θ)0,Θπ(θ)dθ=
  • 后验密度 π ( θ ∣ x ) \pi(\theta|x) π(θx)是正常的密度函数。

这样,就可以引入 π ( θ ) ≡ 1 \pi(\theta)\equiv 1 π(θ)1作为此时的无信息先验分布了。广义先验分布中,常数因子不影响后验密度的形式。

对于位置参数,一般表现为 f ( x − θ ) f(x-\theta) f(xθ),选取 π ( θ ) = 1 \pi(\theta)=1 π(θ)=1作为无信息先验分布是合理的;对于尺度参数,一般表现为 σ − 1 φ ( x / σ ) \sigma^{-1}\varphi(x/\sigma) σ1φ(x/σ),此时应该选择先验分布为 π ( σ ) = 1 / σ \pi(\sigma)=1/\sigma π(σ)=1/σ。如正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)的密度函数是 f ( x ) = 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } f(x)=\frac{1}{\sqrt {2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} f(x)=2π σ1exp{2σ2(xμ)2},这里 μ \mu μ是位置参数, σ \sigma σ是尺度参数。

对于非位置参数与非尺度参数,一般采用Jeffreys无信息先验,其一般步骤是:

  1. 写出样本的对数似然函数为
    l ( θ ∣ x ) = ln ⁡ [ ∏ i = 1 n f ( x i ∣ θ ) ] = ∑ i = 1 n ln ⁡ f ( x i ∣ θ ) l(\boldsymbol \theta|x)=\ln\left[ \prod_{i=1}^nf(x_i|\boldsymbol \theta) \right]=\sum_{i=1}^n \ln f(x_i|\boldsymbol \theta) l(θx)=ln[i=1nf(xiθ)]=i=1nlnf(xiθ)

  2. 写出样本信息矩阵为
    I ( θ ) = ( I i j ( θ ) ) p × p , I i j ( θ ) = E X ∣ θ { − ∂ 2 l ∂ θ i ∂ θ j } \boldsymbol I(\boldsymbol \theta)=(I_{ij}(\boldsymbol \theta ))_{p\times p},I_{ij}(\boldsymbol \theta)=E_{\boldsymbol X|\theta}\left\{ -\frac{\partial^2l}{\partial \theta_i \partial \theta_j} \right\} I(θ)=(Iij(θ))p×p,Iij(θ)=EXθ{θiθj2l}
    对于一维参数,信息函数就是 I ( θ ) = E X ∣ θ { − ∂ 2 l ∂ θ 2 } I(\theta)=E_{X|\theta}\{-\frac{\partial^2l}{\partial\theta^2}\} I(θ)=EXθ{θ22l}

  3. 参数 θ \boldsymbol \theta θ的无信息先验就是 π ( θ ) = [ det ⁡ I ( θ ) ] 1 / 2 \pi(\boldsymbol \theta)=[\det \boldsymbol I(\boldsymbol \theta)]^{1/2} π(θ)=[detI(θ)]1/2,单参数时 π ( θ ) = [ I ( θ ) ] 1 / 2 \pi(\theta)=[I(\theta)]^{1/2} π(θ)=[I(θ)]1/2。也就是说,单参数情况下无信息先验密度就是信息函数开方。

3.共轭先验分布

共轭先验分布族:设 θ \theta θ是总体分布中的参数, X X X的分布为 f ( x ∣ θ ) f(x|\theta) f(xθ),如果任取先验分布 π ( θ ) ∈ F \pi(\theta)\in \mathscr F π(θ)F与样本 x x x,后验分布 π ( θ ∣ x ) \pi(\theta|x) π(θx)仍属于 F \mathscr F F,则称 F \mathscr F F是一个共轭先验分布族。

常用的共轭先验分布如下表:

总体分布参数共轭先验分布
二项分布 b ( n , p ) b(n,p) b(n,p) p p p B \Beta B分布 p a − 1 ( 1 − p ) b − 1 p^{a-1}(1-p)^{b-1} pa1(1p)b1
泊松分布 P ( λ ) P(\lambda) P(λ) λ \lambda λ Γ \Gamma Γ分布 λ a − 1 e − b λ \lambda^{a-1}e^{-b\lambda} λa1ebλ
指数分布 E ( λ ) E(\lambda) E(λ) 1 / λ 1/\lambda 1/λ Γ − 1 \Gamma^{-1} Γ1分布 λ − ( a + 1 ) e − b λ \lambda^{-(a+1)}e^{-\frac{b}{\lambda}} λ(a+1)eλb
指数分布 E ( λ ) E(\lambda) E(λ) λ \lambda λ Γ \Gamma Γ分步 λ a − 1 e − b λ \lambda^{a-1}e^{-b\lambda} λa1ebλ
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) μ \mu μ正态分布 e a μ 2 + b μ e^{a\mu^2+b\mu} eaμ2+bμ
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2) σ 2 \sigma^2 σ2 Γ − 1 \Gamma^{-1} Γ1分布 λ − ( a + 1 ) e − b λ \lambda^{-(a+1)}e^{-\frac{b}{\lambda}} λ(a+1)eλb
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值