贝叶斯分析——单参数模型(上)


模型中只含有一个待估参数,包括二项分布、正态分布、泊松分布和指数分布四类经典的模型。在推导过程中对贝叶斯分析中常用的一些概念和计算方法进行说明。

Informative prior distribution

1. binomial distribution with different prior distributions

二项分布概率计算公式,
p ( y ∣ θ ) = B i n o m ( y ∣ n , θ ) = C n y ⋅ θ y ⋅ ( 1 − θ ) n − y p(y|\theta)=Binom(y|n,\theta)=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y} p(yθ)=Binom(yn,θ)=Cnyθy(1θ)ny
形式可表示为,称为二项分布的 likelihood,其中 θ \theta θ是待估计的参数(成功概率),
p ( y ∣ θ ) ∝ θ a ⋅ ( 1 − θ ) b p(y|\theta)\propto \theta^a\cdot (1-\theta)^b p(yθ)θa(1θ)b
如果待估计参数 θ \theta θ的先验分布与该形式相同,且拥有自己的 a a a b b b参数值,称为 prior
p ( θ ) ∝ θ α − 1 ( 1 − θ ) β − 1 p(\theta)\propto \theta^{\alpha -1}(1-\theta)^{\beta-1} p(θ)θα1(1θ)β1
θ \theta θ服从的Beta分布参数 α \alpha α β \beta β固定(即寻找到 θ \theta θ合理的先验分布),则待估计参数 θ \theta θ的后验分布 p ( θ ∣ y ) p(\theta|y) p(θy)可用如下公式计算得到,
p o s t e r i o r ∝ p r i o r × l i k e l i h o o d posterior\propto prior × likelihood posteriorprior×likelihood
即,
p ( θ ∣ y ) ∝ θ y ( 1 − θ ) n − y θ α − 1 ( 1 − θ ) β − 1 = θ y + α − 1 ( 1 − θ ) n − y + β − 1 = B e t a ( θ ∣ α + y , β + n − y ) p(\theta|y)\propto \theta^y(1-\theta)^{n-y} \theta^{\alpha -1}(1-\theta)^{\beta-1}\\=\theta^{y+\alpha-1}(1-\theta)^{n-y+\beta-1}\\=Beta(\theta|\alpha+y,\beta+n-y) p(θy)θy(1θ)nyθα1(1θ)β1=θy+α1(1θ)ny+β1=Beta(θα+y,β+ny)
此时带估计参数 θ \theta θ的先验分布和后验分布形式相同,也得到二项分布的共轭先验分布是Beta分布。依据Beta分布的性质,待估计参数 θ \theta θ的后验均值及后验方差为,
E ( θ ∣ y ) = α + y α + β + n v a r ( θ ∣ y ) = ( α + y ) ( β + n − y ) ( α + β + n ) 2 ( α + β + n + 1 ) = E ( θ ∣ y ) [ 1 − E ( θ ∣ y ) ] α + β + n + 1 E(\theta|y)=\frac{\alpha+y}{\alpha+\beta+n}\\var(\theta|y)=\frac{(\alpha+y)(\beta+n-y)}{(\alpha+\beta+n)^2(\alpha+\beta+n+1)}=\frac{E(\theta|y)[1-E(\theta|y)]}{\alpha+\beta+n+1} E(θy)=α+β+nα+yvar(θy)=(α+β+n)2(α+β+n+1)(α+y)(β+ny)=α+β+n+1E(θy)[1E(θy)]
当先验分布参数 α \alpha α β \beta β的值固定, y y y n − y n-y ny的值去某个大值的时候,
E ( θ ∣ y ) ≈ y n v a r ( θ ∣ y ) ≈ 1 n × y n × ( 1 − y n ) E(\theta|y)\approx\frac{y}{n}\\var(\theta|y)\approx\frac{1}{n}×\frac{y}{n}×(1-\frac{y}{n}) E(θy)nyvar(θy)n1×ny×(1ny)
在实践中,如果将 θ \theta θ转换为logit形式,即 l o g ( θ 1 − θ ) log(\frac{\theta}{1-\theta}) log(1θθ),并使用正态分布进行近似会得到更精确的效果。取logit形式而不直接对 θ \theta θ进行正态分布近似的原因是,logit方式将 θ \theta θ的范围从 [ 0 , 1 ] [0,1] [0,1]拓展到 [ − ∞ , + ∞ ] [-∞,+∞] [,+],更适合进行正态近似。

2. conjugate prior distribution, exponential families, sufficient statistics

常见的正态分布、卡方分布、伯努利分布、泊松分布、β-分布、γ-分布等都属于exponential family。若一个分布属于exponential family,则其参数一定遵循如下形式,
p ( y i ∣ θ ) = f ( y i ) g ( θ ) e ϕ ( θ ) T u ( y i ) p(y_i|θ)=f(y_i)g(\theta)e^{\phi(\theta)^Tu(y_i)} p(yiθ)=f(yi)g(θ)eϕ(θ)Tu(yi)
其中, ϕ ( θ ) \phi(\theta) ϕ(θ) u ( y i ) u(y_i) u(yi) 是与 θ \theta θ相同维度的向量。 ϕ ( θ ) \phi(\theta) ϕ(θ)称为"natural parameter"。当 y = ( y 1 , y 2 , . . . y n ) y=(y_1,y_2,...y_n) y=(y1,y2,...yn),则相应的likelihood可表示为,
p ( y ∣ θ ) = ∏ i = 1 n f ( y i ) ⋅ g ( θ ) n ⋅ e ϕ ( θ ) T ∑ i = 1 n u ( y i ) p(y|\theta)=\prod_{i=1}^nf(y_i)\cdot g(\theta)^n\cdot e^{\phi(\theta)^T\sum_{i=1}^nu(y_i)} p(yθ)=i=1nf(yi)g(θ)neϕ(θ)Ti=1nu(yi)
对于所有的 n n n y y y,具有固定的形式,
p ( y ∣ θ ) ∝ g ( θ ) n ⋅ e ϕ ( θ ) T t ( y ) p(y|\theta)\propto g(\theta)^n\cdot e^{\phi(\theta)^Tt(y)} p(yθ)g(θ)neϕ(θ)Tt(y)
其中 t ( y ) = ∑ i = 1 n u ( y i ) t(y)=\sum_{i=1}^nu(y_i) t(y)=i=1nu(yi),称为"sufficient statistic for θ",因为θ的似然取决于数据 y y y的值只能通过 t ( y ) t (y) t(y)。如果 θ \theta θ的先验分布为,
p ( θ ) ∝ g ( θ ) η e ϕ ( θ ) T ν p(\theta)\propto g(\theta)^\eta e^{\phi(\theta)^T\nu} p(θ)g(θ)ηeϕ(θ)Tν
θ \theta θ的后验概率为,
p ( θ ∣ y ) ∝ g ( θ ) η + n e ϕ ( θ ) T ( ν + t ( y ) ) p(\theta|y)\propto g(\theta)^{\eta+n} e^{\phi(\theta)^T(\nu+t(y))} p(θy)g(θ)η+neϕ(θ)T(ν+t(y))

3. estimating normal mean with known variance

正态分布均值 θ \theta θ以及方差 σ 2 \sigma^2 σ2,其中方差未知。

1) single data point

假设该数据点属于某个正态分布,
p ( y ∣ θ ) = 1 2 π σ e − 1 2 σ 2 ( y − θ ) 2 p(y|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(y-\theta)^2} p(yθ)=2π σ1e2σ21(yθ)2
假设 θ \theta θ的共轭先验分布形式为,
p ( θ ) = e A θ 2 + B θ + C ∝ e − 1 2 τ 0 2 ( θ − μ 0 ) 2 p(\theta)=e^{A\theta^2+B\theta+C}\propto e^{-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2} p(θ)=eAθ2+Bθ+Ce2τ021(θμ0)2
θ ∼ N ( μ 0 , τ 0 2 ) \theta\sim N(\mu_0, \tau_0^2) θN(μ0,τ02),可以得到参数 θ \theta θ的后验概率,
p ( θ ) ∝ e − 1 2 ( ( y − θ ) 2 σ 2 + ( θ − μ 0 ) 2 τ 0 2 ) ∝ e − 1 2 τ 1 2 ( θ − μ 1 ) 2 p(\theta)\propto e^{-\frac{1}{2}(\frac{(y-\theta)^2}{\sigma^2}+\frac{(\theta-\mu_0)^2}{\tau_0^2})}\propto e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2} p(θ)e21(σ2(yθ)2+τ02(θμ0)2)e2τ121(θμ1)2
θ ∣ y ∼ N ( μ 1 , τ 1 2 ) \theta|y\sim N(\mu_1,\tau_1^2) θyN(μ1,τ12),其中
μ 1 = 1 τ 0 2 μ 0 + 1 σ 2 y 1 τ 0 2 + 1 σ 2 1 τ 1 2 = 1 τ 0 2 + 1 σ 2 \mu_1=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{1}{\sigma^2}y}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_1^2}=\frac{1}{\tau_0^2}+\frac{1}{\sigma^2} μ1=τ021+σ21τ021μ0+σ21yτ121=τ021+σ21
此时,方差的倒数被称为"precision",且 p o s t e r i o r _ p r e c i s i o n = p r i o r _ p r e c i s i o n + d a t a _ p r e c i s i o n posterior\_precision=prior\_precision+data\_precision posterior_precision=prior_precision+data_precision
μ 1 = μ 0 + ( y − μ 0 ) τ 0 2 τ 0 2 + σ 2 μ 1 = y − ( y − μ 0 ) σ 2 τ 0 2 + σ 2 \mu_1=\mu_0+(y-\mu_0)\frac{\tau_0^2}{\tau_0^2+\sigma^2}\\\mu_1=y-(y-\mu_0)\frac{\sigma^2}{\tau_0^2+\sigma^2} μ1=μ0+(yμ0)τ02+σ2τ02μ1=y(yμ0)τ02+σ2σ2
在一些极端条件下,后验均值 μ 1 \mu_1 μ1等于先验均值 μ 0 \mu_0 μ0或观测值 y y y
y = μ 0 y=\mu_0 y=μ0 τ 0 2 = 0 \tau_0^2=0 τ02=0时, μ 1 = μ 0 \mu_1=\mu_0 μ1=μ0
y = μ 0 y=\mu_0 y=μ0 σ 2 = 0 \sigma^2=0 σ2=0时, μ 1 = y \mu_1=y μ1=y
由此可得后验预测分布,
p ( y ~ ∣ y ) = ∫ p ( y ~ ∣ θ ) p ( θ ∣ y ) d θ ∝ ∫ e − 1 2 σ 2 ( y ~ − θ ) 2 e − 1 2 τ 1 2 ( θ − μ 1 ) 2 d θ p(\widetilde{y}|y)=\int p(\widetilde{y}|\theta)p(\theta|y)d\theta\propto \int e^{-\frac{1}{2\sigma^2}(\widetilde{y}-\theta)^2}e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2}d\theta p(y y)=p(y θ)p(θy)dθe2σ21(y θ)2e2τ121(θμ1)2dθ
后验预测分布的均值和方差满足,
E ( y ~ ∣ y ) = E ( E ( y ~ ∣ θ , y ) ∣ y ) = E ( θ ∣ y ) = μ 1 v a r ( y ~ ∣ y ) = E ( v a r ( y ~ ∣ θ , y ) ∣ y ) + v a r ( E ( y ~ ∣ θ , y ) ∣ y ) = v a r ( σ 2 ∣ y ) + v a r ( θ ∣ y ) = σ 2 + τ 1 2 E(\widetilde{y}|y)=E(E(\widetilde{y}|\theta,y)|y)=E(\theta|y)=\mu_1\\var(\widetilde{y}|y)=E(var(\widetilde{y}|\theta,y)|y)+var(E(\widetilde{y}|\theta,y)|y)\\=var(\sigma^2|y)+var(\theta|y)=\sigma^2+\tau_1^2 E(y y)=E(E(y θ,y)y)=E(θy)=μ1var(y y)=E(var(y θ,y)y)+var(E(y θ,y)y)=var(σ2y)+var(θy)=σ2+τ12
即后验预测分布的均值与 θ \theta θ的后验均值相等;方差由两部分组成一部分是已知的方差 σ 2 \sigma^2 σ2,另一部分是由于 θ \theta θ的不确定性产生的 τ 1 2 \tau_1^2 τ12

2) multiple observations

当存在多个观测数据, y = ( y 1 , y 2 , . . . y n ) y=(y_1,y_2,...y_n) y=(y1,y2,...yn),则相应的likelihood可表示为,
p ( y ∣ θ ) = p ( θ ) ∏ i = 1 n p ( y i ∣ θ ) ∝ e − 1 2 τ 0 2 ( θ − μ 0 ) 2 ∏ i = 1 n e − 1 2 σ 1 2 ( y i − θ ) 2 ∝ e − 1 2 ( 1 τ 0 2 ( θ − μ 0 ) 2 + 1 σ 2 ∑ i = 1 n ( y i − θ ) 2 ) p(y|\theta)=p(\theta)\prod_{i=1}^np(y_i|\theta)\\\propto e^{-\frac{1}{2\tau_0^2}(\theta-\mu_0)^2}\prod_{i=1}^ne^{-\frac{1}{2\sigma_1^2}(y_i-\theta)^2}\\\propto e^{-\frac{1}{2}(\frac{1}{\tau_0^2}(\theta-\mu_0)^2+\frac{1}{\sigma^2}\sum_{i=1}^n(y_i-\theta)^2)} p(yθ)=p(θ)i=1np(yiθ)e2τ021(θμ0)2i=1ne2σ121(yiθ)2e21(τ021(θμ0)2+σ21i=1n(yiθ)2)
则待估计参数 θ \theta θ的后验分布,
p ( θ ∣ y 1 , y 2 , . . . y n ) = p ( θ ∣ y ˉ ) = N ( θ ∣ μ n , τ n 2 ) p(\theta|y_1,y_2,...y_n)=p(\theta|\bar{y})=N(\theta|\mu_n,\tau_n^2) p(θy1,y2,...yn)=p(θyˉ)=N(θμn,τn2)
,其中
μ n = 1 τ 0 2 μ 0 + n σ 2 y ˉ 1 τ 0 2 + 1 σ 2 1 τ n 2 = 1 τ 0 2 + n σ 2 \mu_n=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{n}{\sigma^2}\bar{y}}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_n^2}=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2} μn=τ021+σ21τ021μ0+σ2nyˉτn21=τ021+σ2n
τ 0 → ∞ \tau_0\to∞ τ0 n → ∞ n\to∞ n时, p ( θ ∣ y ) ≈ N ( θ ∣ y ˉ , σ 2 n ) p(\theta|y)\approx N(\theta|\bar{y},\frac{\sigma^2}{n}) p(θy)N(θyˉ,nσ2)

4. estimating normal variance with known mean

此时轮换,改为方差未知的正态分布。此时likelihood计算公式满足,
p ( y ∣ σ 2 ) ∝ σ − n e − 1 2 σ 2 ∑ i = 1 n ( y i − θ ) 2 = ( σ 2 ) − n 2 e − n 2 σ 2 ν p(y|\sigma^2)\propto \sigma^{-n}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\theta)^2}\\=(\sigma^2)^{-\frac{n}{2}}e^{-\frac{n}{2\sigma^2}\nu} p(yσ2)σne2σ21i=1n(yiθ)2=(σ2)2ne2σ2nν
其中,
ν = 1 n ∑ i = 1 n ( y i − θ ) 2 \nu=\frac{1}{n}\sum_{i=1}^n(y_i-\theta)^2 ν=n1i=1n(yiθ)2
此时, σ 2 \sigma^2 σ2的共轭先验分布是inverse-gamma分布,
p ( σ 2 ) ∝ ( σ 2 ) − α + 1 e − β σ 2 p(\sigma^2)\propto (\sigma^2)^{-\alpha+1}e^{-\frac{\beta}{\sigma^2}} p(σ2)(σ2)α+1eσ2β
一种简便的设置参数的方式是初始化一个inverse-chi-square分布(这种分布与inverse-gamma的关系看维基百科或参考书),可得到待估计参数 σ 2 \sigma^2 σ2的后验分布,
p ( σ 2 ∣ y ) ∝ p ( σ 2 ) p ( y ∣ σ 2 ) p(\sigma^2|y)\propto p(\sigma^2)p(y|\sigma^2) p(σ2y)p(σ2)p(yσ2)
最终可得,
σ 2 ∣ y ∼ I n v − χ 2 ( ν 0 + n , ν 0 σ 2 + n ν ν 0 + n ) \sigma^2|y\sim Inv-\chi^2(\nu_0+n,\frac{\nu_0\sigma^2+n\nu}{\nu_0+n}) σ2yInvχ2(ν0+n,ν0+nν0σ2+nν)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值