贝叶斯分析——单参数模型(下)

Informative prior distribution

5. Poisson model

基本推导

对于一个单独的数据点 y y y而言,在参数为 θ \theta θ的泊松分布下,其概率分布函数为,
p ( y ∣ θ ) = θ y e − θ y ! p(y|\theta)=\frac{\theta^ye^{-\theta}}{y!} p(yθ)=y!θyeθ
,其中 y = 1 , 2 , . . . y=1,2,... y=1,2,...。而对于一系列的观测值 y = ( y 1 , y 2 , . . . y n ) y=(y_1,y_2,...y_n) y=(y1,y2,...yn),每个观测相互独立的情况下,其泊松分布的概率(likelihood)表示为,
p ( y ∣ θ ) = ∏ i = 1 n θ y e − θ y ! ∝ θ t ( y ) e − n θ p(y|\theta)=\prod_{i=1}^n\frac{\theta^ye^{-\theta}}{y!}\propto \theta^{t(y)}e^{-n\theta} p(yθ)=i=1ny!θyeθθt(y)enθ
其中, t ( y ) = ∑ i = 1 n y i t(y)=\sum_{i=1}^ny_i t(y)=i=1nyi,将上式改写为exponential families的形式,
p ( y ∣ θ ) ∝ e − n θ e t ( y ) l o g θ p(y|\theta)\propto e^{-n\theta}e^{t(y)log\theta} p(yθ)enθet(y)logθ
这种形式对应的exponential families的natural parameter为 ϕ ( θ ) = l o g θ \phi(\theta)=log\theta ϕ(θ)=logθ,exponential families的形式下,待估计参数 θ \theta θ的先验分布与exponential families的参数形式相同,即共轭先验,则 θ \theta θ的先验分布可写为,
p ( θ ) ∝ ( e − θ ) η e ν l o g θ p(\theta)\propto (e^{-\theta})^\eta e^{\nu log\theta} p(θ)(eθ)ηeνlogθ
θ \theta θ的先验分布由 η \eta η ν \nu ν两个参数决定,将上面likelihood的算式改写为另一种更简洁的形式形式 p ( y ∣ θ ) ∝ θ a e − b θ p(y|\theta)\propto \theta^a e^{-b\theta} p(yθ)θaebθ,则 θ \theta θ的分布依据exponential families的性质,必然遵循同样的参数形式, p ( θ ) ∝ θ A e B θ p(\theta)\propto \theta^Ae^{B\theta} p(θ)θAeBθ,以一种更明显的形式表示,
p ( θ ) ∝ e − β θ θ α − 1 p(\theta)\propto e^{-\beta\theta}\theta^{\alpha-1} p(θ)eβθθα1
上式是一个以 α \alpha α β \beta β为参数的Gamma分布。确定参数 θ \theta θ的prior distribution和likelihood后可计算得到posterior distribution,
θ ∣ y ∼ G a m m a ( α + n y ˉ , β + n ) \theta|y\sim Gamma(\alpha+n\bar{y}, \beta+n) θyGamma(α+nyˉ,β+n)
通过上面三个算式,可以计算观测值 y y y的边缘分布(prior predictive distribution),
p ( y ) = p ( y ∣ θ ) p ( θ ) p ( θ ∣ y ) p(y)=\frac{p(y|\theta)p(\theta)}{p(\theta|y)} p(y)=p(θy)p(yθ)p(θ)
以一个观测值 y y y为例,
p ( y ) = P o s s i o n ( y ∣ θ ) G a m m a ( θ ∣ α , β ) G a m m a ( α + y , 1 + β ) = Γ ( α + y ) β α Γ ( α ) y ! ( 1 + β ) α + y p(y)=\frac{Possion(y|\theta)Gamma(\theta|\alpha,\beta)}{Gamma(\alpha+y,1+\beta)}\\=\frac{\Gamma(\alpha+y)\beta^\alpha}{\Gamma(\alpha)y!(1+\beta)^{\alpha+y}} p(y)=Gamma(α+y,1+β)Possion(yθ)Gamma(θα,β)=Γ(α)y!(1+β)α+yΓ(α+y)βα
可以化简为,
p ( y ) = C y α + y − 1 ( β 1 + β ) α ( 1 1 + β ) y p(y)=C_y^{\alpha+y-1}(\frac{\beta}{1+\beta})^\alpha(\frac{1}{1+\beta})^y p(y)=Cyα+y1(1+ββ)α(1+β1)y
上式的形式与负二项分布(negative binomial distribution)的形式相同,即 y ∼ N e g − b i n o m ( α , β ) y\sim Neg-binom(\alpha,\beta) yNegbinom(α,β)。这一结果说明,负二项分布是泊松分布与Gamma分布的混合形式,
N e g − b i n o m ( y ∣ α , β ) = ∫ P o s s i o n ( y ∣ θ ) G a m m a ( θ ∣ α , β ) d θ Neg-binom(y|\alpha,\beta)=\int Possion(y|\theta)Gamma(\theta|\alpha,\beta)d\theta Negbinom(yα,β)=Possion(yθ)Gamma(θα,β)dθ

技巧

在很多场景中可以在多个数据点 y 1 , y 2 , . . . y n y_1,y_2,...y_n y1,y2,...yn上对泊松分布进行拓展,
y i ∼ P o i s s o n ( x i θ ) y_i\sim Poisson(x_i\theta) yiPoisson(xiθ)
其中, x i x_i xi是已知的解释变量,被称为"exposure of ith unit", θ \theta θ是被关注的未知参数。经过这一调整后,模型从unexchangeable的 y i y_i yi变成了exchangeable的 ( x , y ) i (x,y)_i (x,y)i,此时likelihood的形式变化如下,
p ( y ∣ θ ) ∝ θ ( ∑ i = 1 n y i ) e − ( ∑ i = 1 n x i ) θ p(y|\theta)\propto \theta^{(\sum_{i=1}^ny_i)}e^{-(\sum_{i=1}^nx_i)\theta} p(yθ)θ(i=1nyi)e(i=1nxi)θ θ \theta θ的共轭先验分布没有变化,依旧是 θ ∼ G a m m a ( α , β ) \theta\sim Gamma(\alpha,\beta) θGamma(α,β),此时 θ \theta θ的后验分布服从
θ ∼ G a m m a ( α + ∑ i = 1 n y i , β + ∑ i = 1 n x i ) \theta\sim Gamma(\alpha+\sum_{i=1}^ny_i,\beta+\sum_{i=1}^nx_i) θGamma(α+i=1nyi,β+i=1nxi)
这种技巧的关键在于,选取合理的exposure的值。

注释
exchangeable(可交换性):统计分析的起点通常都是假设n个 y i y_{i} yi​都是可交换的,也就是联合概率密度 p ( y 1 , . . . , y n ) p(y_{1},...,y_{n}) p(y1,...,yn)的结果不随着索引的变化而改变。可交换性的思想是统计的基础,在很多问题中都存在。通常把来自具有交换性的分布的数据看作是在给定未知参数 θ \theta θ,其分布是 p ( θ ) p(\theta) p(θ)时,独立同分布的样本(independently and identically, i.i.d.)。
当产出的结果信息是相关的,与索引位置有关的时候,需要建立不可交换的模型。

6. Exponential model

指数分布常用于时间序列问题,对于一个数据而言,其指数分布的likelihood表达式为,
p ( y ∣ θ ) = θ e − y θ p(y|\theta)=\theta e^{-y\theta} p(yθ)=θeyθ
,其中 y > 0 y>0 y>0。依据指数分布的性质, E ( y ∣ θ ) = 1 θ E(y|\theta)=\frac{1}{\theta} E(yθ)=θ1,即 θ = 1 E ( y ∣ θ ) \theta=\frac{1}{E(y|\theta)} θ=E(yθ)1。此时是一种特殊的Gamma分布, G a m m a ( 1 , θ ) Gamma(1,\theta) Gamma(1,θ)。然而,在这种情况下,它被用作一个抽样分布的结果,不是一个参数 θ \theta θ的先验分布。

对于一系列的观测值 y = ( y 1 , y 2 , . . . y n ) y=(y_1,y_2,...y_n) y=(y1,y2,...yn),则likelihood表示为,
p ( y ∣ θ ) = θ n e n y ˉ θ p(y|\theta)=\theta^ne^{n\bar{y}\theta} p(yθ)=θnenyˉθ
这一形式参考上一节的内容,待估计参数 θ \theta θ的共轭先验分布服从Gamma分布。当有一系列数据点时, p ( θ ) ∝ G a m m a ( n + 1 , n y ˉ ) p(\theta)\propto Gamma(n+1,n\bar{y}) p(θ)Gamma(n+1,nyˉ)

NonInformative prior distribution

当先验分布缺乏"population bias"时,先验分布是很难构建的。而且希望先验分布对后验分布的影响越小越好(因为有时候先验分布是过于主观的)。

1. proper and improper distribution

待补充

2. Jefferys’ invariance principle

待补充

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值