模型中只含有一个待估参数,包括二项分布、正态分布、泊松分布和指数分布四类经典的模型。在推导过程中对贝叶斯分析中常用的一些概念和计算方法进行说明。
Informative prior distribution
1. binomial distribution with different prior distributions
二项分布概率计算公式,
p
(
y
∣
θ
)
=
B
i
n
o
m
(
y
∣
n
,
θ
)
=
C
n
y
⋅
θ
y
⋅
(
1
−
θ
)
n
−
y
p(y|\theta)=Binom(y|n,\theta)=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}
p(y∣θ)=Binom(y∣n,θ)=Cny⋅θy⋅(1−θ)n−y
形式可表示为,称为二项分布的 likelihood,其中
θ
\theta
θ是待估计的参数(成功概率),
p
(
y
∣
θ
)
∝
θ
a
⋅
(
1
−
θ
)
b
p(y|\theta)\propto \theta^a\cdot (1-\theta)^b
p(y∣θ)∝θa⋅(1−θ)b
如果待估计参数
θ
\theta
θ的先验分布与该形式相同,且拥有自己的
a
a
a和
b
b
b参数值,称为 prior,
p
(
θ
)
∝
θ
α
−
1
(
1
−
θ
)
β
−
1
p(\theta)\propto \theta^{\alpha -1}(1-\theta)^{\beta-1}
p(θ)∝θα−1(1−θ)β−1
当
θ
\theta
θ服从的Beta分布参数
α
\alpha
α和
β
\beta
β固定(即寻找到
θ
\theta
θ合理的先验分布),则待估计参数
θ
\theta
θ的后验分布
p
(
θ
∣
y
)
p(\theta|y)
p(θ∣y)可用如下公式计算得到,
p
o
s
t
e
r
i
o
r
∝
p
r
i
o
r
×
l
i
k
e
l
i
h
o
o
d
posterior\propto prior × likelihood
posterior∝prior×likelihood
即,
p
(
θ
∣
y
)
∝
θ
y
(
1
−
θ
)
n
−
y
θ
α
−
1
(
1
−
θ
)
β
−
1
=
θ
y
+
α
−
1
(
1
−
θ
)
n
−
y
+
β
−
1
=
B
e
t
a
(
θ
∣
α
+
y
,
β
+
n
−
y
)
p(\theta|y)\propto \theta^y(1-\theta)^{n-y} \theta^{\alpha -1}(1-\theta)^{\beta-1}\\=\theta^{y+\alpha-1}(1-\theta)^{n-y+\beta-1}\\=Beta(\theta|\alpha+y,\beta+n-y)
p(θ∣y)∝θy(1−θ)n−yθα−1(1−θ)β−1=θy+α−1(1−θ)n−y+β−1=Beta(θ∣α+y,β+n−y)
此时带估计参数
θ
\theta
θ的先验分布和后验分布形式相同,也得到二项分布的共轭先验分布是Beta分布。依据Beta分布的性质,待估计参数
θ
\theta
θ的后验均值及后验方差为,
E
(
θ
∣
y
)
=
α
+
y
α
+
β
+
n
v
a
r
(
θ
∣
y
)
=
(
α
+
y
)
(
β
+
n
−
y
)
(
α
+
β
+
n
)
2
(
α
+
β
+
n
+
1
)
=
E
(
θ
∣
y
)
[
1
−
E
(
θ
∣
y
)
]
α
+
β
+
n
+
1
E(\theta|y)=\frac{\alpha+y}{\alpha+\beta+n}\\var(\theta|y)=\frac{(\alpha+y)(\beta+n-y)}{(\alpha+\beta+n)^2(\alpha+\beta+n+1)}=\frac{E(\theta|y)[1-E(\theta|y)]}{\alpha+\beta+n+1}
E(θ∣y)=α+β+nα+yvar(θ∣y)=(α+β+n)2(α+β+n+1)(α+y)(β+n−y)=α+β+n+1E(θ∣y)[1−E(θ∣y)]
当先验分布参数
α
\alpha
α和
β
\beta
β的值固定,
y
y
y和
n
−
y
n-y
n−y的值去某个大值的时候,
E
(
θ
∣
y
)
≈
y
n
v
a
r
(
θ
∣
y
)
≈
1
n
×
y
n
×
(
1
−
y
n
)
E(\theta|y)\approx\frac{y}{n}\\var(\theta|y)\approx\frac{1}{n}×\frac{y}{n}×(1-\frac{y}{n})
E(θ∣y)≈nyvar(θ∣y)≈n1×ny×(1−ny)
在实践中,如果将
θ
\theta
θ转换为logit形式,即
l
o
g
(
θ
1
−
θ
)
log(\frac{\theta}{1-\theta})
log(1−θθ),并使用正态分布进行近似会得到更精确的效果。取logit形式而不直接对
θ
\theta
θ进行正态分布近似的原因是,logit方式将
θ
\theta
θ的范围从
[
0
,
1
]
[0,1]
[0,1]拓展到
[
−
∞
,
+
∞
]
[-∞,+∞]
[−∞,+∞],更适合进行正态近似。
2. conjugate prior distribution, exponential families, sufficient statistics
常见的正态分布、卡方分布、伯努利分布、泊松分布、β-分布、γ-分布等都属于exponential family。若一个分布属于exponential family,则其参数一定遵循如下形式,
p
(
y
i
∣
θ
)
=
f
(
y
i
)
g
(
θ
)
e
ϕ
(
θ
)
T
u
(
y
i
)
p(y_i|θ)=f(y_i)g(\theta)e^{\phi(\theta)^Tu(y_i)}
p(yi∣θ)=f(yi)g(θ)eϕ(θ)Tu(yi)
其中,
ϕ
(
θ
)
\phi(\theta)
ϕ(θ)和
u
(
y
i
)
u(y_i)
u(yi) 是与
θ
\theta
θ相同维度的向量。
ϕ
(
θ
)
\phi(\theta)
ϕ(θ)称为"natural parameter"。当
y
=
(
y
1
,
y
2
,
.
.
.
y
n
)
y=(y_1,y_2,...y_n)
y=(y1,y2,...yn),则相应的likelihood可表示为,
p
(
y
∣
θ
)
=
∏
i
=
1
n
f
(
y
i
)
⋅
g
(
θ
)
n
⋅
e
ϕ
(
θ
)
T
∑
i
=
1
n
u
(
y
i
)
p(y|\theta)=\prod_{i=1}^nf(y_i)\cdot g(\theta)^n\cdot e^{\phi(\theta)^T\sum_{i=1}^nu(y_i)}
p(y∣θ)=i=1∏nf(yi)⋅g(θ)n⋅eϕ(θ)T∑i=1nu(yi)
对于所有的
n
n
n和
y
y
y,具有固定的形式,
p
(
y
∣
θ
)
∝
g
(
θ
)
n
⋅
e
ϕ
(
θ
)
T
t
(
y
)
p(y|\theta)\propto g(\theta)^n\cdot e^{\phi(\theta)^Tt(y)}
p(y∣θ)∝g(θ)n⋅eϕ(θ)Tt(y)
其中
t
(
y
)
=
∑
i
=
1
n
u
(
y
i
)
t(y)=\sum_{i=1}^nu(y_i)
t(y)=∑i=1nu(yi),称为"sufficient statistic for θ",因为θ的似然取决于数据
y
y
y的值只能通过
t
(
y
)
t (y)
t(y)。如果
θ
\theta
θ的先验分布为,
p
(
θ
)
∝
g
(
θ
)
η
e
ϕ
(
θ
)
T
ν
p(\theta)\propto g(\theta)^\eta e^{\phi(\theta)^T\nu}
p(θ)∝g(θ)ηeϕ(θ)Tν
则
θ
\theta
θ的后验概率为,
p
(
θ
∣
y
)
∝
g
(
θ
)
η
+
n
e
ϕ
(
θ
)
T
(
ν
+
t
(
y
)
)
p(\theta|y)\propto g(\theta)^{\eta+n} e^{\phi(\theta)^T(\nu+t(y))}
p(θ∣y)∝g(θ)η+neϕ(θ)T(ν+t(y))
3. estimating normal mean with known variance
正态分布均值 θ \theta θ以及方差 σ 2 \sigma^2 σ2,其中方差未知。
1) single data point
假设该数据点属于某个正态分布,
p
(
y
∣
θ
)
=
1
2
π
σ
e
−
1
2
σ
2
(
y
−
θ
)
2
p(y|\theta)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(y-\theta)^2}
p(y∣θ)=2πσ1e−2σ21(y−θ)2
假设
θ
\theta
θ的共轭先验分布形式为,
p
(
θ
)
=
e
A
θ
2
+
B
θ
+
C
∝
e
−
1
2
τ
0
2
(
θ
−
μ
0
)
2
p(\theta)=e^{A\theta^2+B\theta+C}\propto e^{-\frac{1}{2\tau_0^2}(\theta - \mu_0)^2}
p(θ)=eAθ2+Bθ+C∝e−2τ021(θ−μ0)2
即
θ
∼
N
(
μ
0
,
τ
0
2
)
\theta\sim N(\mu_0, \tau_0^2)
θ∼N(μ0,τ02),可以得到参数
θ
\theta
θ的后验概率,
p
(
θ
)
∝
e
−
1
2
(
(
y
−
θ
)
2
σ
2
+
(
θ
−
μ
0
)
2
τ
0
2
)
∝
e
−
1
2
τ
1
2
(
θ
−
μ
1
)
2
p(\theta)\propto e^{-\frac{1}{2}(\frac{(y-\theta)^2}{\sigma^2}+\frac{(\theta-\mu_0)^2}{\tau_0^2})}\propto e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2}
p(θ)∝e−21(σ2(y−θ)2+τ02(θ−μ0)2)∝e−2τ121(θ−μ1)2
故
θ
∣
y
∼
N
(
μ
1
,
τ
1
2
)
\theta|y\sim N(\mu_1,\tau_1^2)
θ∣y∼N(μ1,τ12),其中
μ
1
=
1
τ
0
2
μ
0
+
1
σ
2
y
1
τ
0
2
+
1
σ
2
1
τ
1
2
=
1
τ
0
2
+
1
σ
2
\mu_1=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{1}{\sigma^2}y}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_1^2}=\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}
μ1=τ021+σ21τ021μ0+σ21yτ121=τ021+σ21
此时,方差的倒数被称为"precision",且
p
o
s
t
e
r
i
o
r
_
p
r
e
c
i
s
i
o
n
=
p
r
i
o
r
_
p
r
e
c
i
s
i
o
n
+
d
a
t
a
_
p
r
e
c
i
s
i
o
n
posterior\_precision=prior\_precision+data\_precision
posterior_precision=prior_precision+data_precision。
μ
1
=
μ
0
+
(
y
−
μ
0
)
τ
0
2
τ
0
2
+
σ
2
μ
1
=
y
−
(
y
−
μ
0
)
σ
2
τ
0
2
+
σ
2
\mu_1=\mu_0+(y-\mu_0)\frac{\tau_0^2}{\tau_0^2+\sigma^2}\\\mu_1=y-(y-\mu_0)\frac{\sigma^2}{\tau_0^2+\sigma^2}
μ1=μ0+(y−μ0)τ02+σ2τ02μ1=y−(y−μ0)τ02+σ2σ2
在一些极端条件下,后验均值
μ
1
\mu_1
μ1等于先验均值
μ
0
\mu_0
μ0或观测值
y
y
y,
当
y
=
μ
0
y=\mu_0
y=μ0或
τ
0
2
=
0
\tau_0^2=0
τ02=0时,
μ
1
=
μ
0
\mu_1=\mu_0
μ1=μ0;
当
y
=
μ
0
y=\mu_0
y=μ0或
σ
2
=
0
\sigma^2=0
σ2=0时,
μ
1
=
y
\mu_1=y
μ1=y。
由此可得后验预测分布,
p
(
y
~
∣
y
)
=
∫
p
(
y
~
∣
θ
)
p
(
θ
∣
y
)
d
θ
∝
∫
e
−
1
2
σ
2
(
y
~
−
θ
)
2
e
−
1
2
τ
1
2
(
θ
−
μ
1
)
2
d
θ
p(\widetilde{y}|y)=\int p(\widetilde{y}|\theta)p(\theta|y)d\theta\propto \int e^{-\frac{1}{2\sigma^2}(\widetilde{y}-\theta)^2}e^{-\frac{1}{2\tau_1^2}(\theta-\mu_1)^2}d\theta
p(y
∣y)=∫p(y
∣θ)p(θ∣y)dθ∝∫e−2σ21(y
−θ)2e−2τ121(θ−μ1)2dθ
后验预测分布的均值和方差满足,
E
(
y
~
∣
y
)
=
E
(
E
(
y
~
∣
θ
,
y
)
∣
y
)
=
E
(
θ
∣
y
)
=
μ
1
v
a
r
(
y
~
∣
y
)
=
E
(
v
a
r
(
y
~
∣
θ
,
y
)
∣
y
)
+
v
a
r
(
E
(
y
~
∣
θ
,
y
)
∣
y
)
=
v
a
r
(
σ
2
∣
y
)
+
v
a
r
(
θ
∣
y
)
=
σ
2
+
τ
1
2
E(\widetilde{y}|y)=E(E(\widetilde{y}|\theta,y)|y)=E(\theta|y)=\mu_1\\var(\widetilde{y}|y)=E(var(\widetilde{y}|\theta,y)|y)+var(E(\widetilde{y}|\theta,y)|y)\\=var(\sigma^2|y)+var(\theta|y)=\sigma^2+\tau_1^2
E(y
∣y)=E(E(y
∣θ,y)∣y)=E(θ∣y)=μ1var(y
∣y)=E(var(y
∣θ,y)∣y)+var(E(y
∣θ,y)∣y)=var(σ2∣y)+var(θ∣y)=σ2+τ12
即后验预测分布的均值与
θ
\theta
θ的后验均值相等;方差由两部分组成一部分是已知的方差
σ
2
\sigma^2
σ2,另一部分是由于
θ
\theta
θ的不确定性产生的
τ
1
2
\tau_1^2
τ12。
2) multiple observations
当存在多个观测数据,
y
=
(
y
1
,
y
2
,
.
.
.
y
n
)
y=(y_1,y_2,...y_n)
y=(y1,y2,...yn),则相应的likelihood可表示为,
p
(
y
∣
θ
)
=
p
(
θ
)
∏
i
=
1
n
p
(
y
i
∣
θ
)
∝
e
−
1
2
τ
0
2
(
θ
−
μ
0
)
2
∏
i
=
1
n
e
−
1
2
σ
1
2
(
y
i
−
θ
)
2
∝
e
−
1
2
(
1
τ
0
2
(
θ
−
μ
0
)
2
+
1
σ
2
∑
i
=
1
n
(
y
i
−
θ
)
2
)
p(y|\theta)=p(\theta)\prod_{i=1}^np(y_i|\theta)\\\propto e^{-\frac{1}{2\tau_0^2}(\theta-\mu_0)^2}\prod_{i=1}^ne^{-\frac{1}{2\sigma_1^2}(y_i-\theta)^2}\\\propto e^{-\frac{1}{2}(\frac{1}{\tau_0^2}(\theta-\mu_0)^2+\frac{1}{\sigma^2}\sum_{i=1}^n(y_i-\theta)^2)}
p(y∣θ)=p(θ)i=1∏np(yi∣θ)∝e−2τ021(θ−μ0)2i=1∏ne−2σ121(yi−θ)2∝e−21(τ021(θ−μ0)2+σ21∑i=1n(yi−θ)2)
则待估计参数
θ
\theta
θ的后验分布,
p
(
θ
∣
y
1
,
y
2
,
.
.
.
y
n
)
=
p
(
θ
∣
y
ˉ
)
=
N
(
θ
∣
μ
n
,
τ
n
2
)
p(\theta|y_1,y_2,...y_n)=p(\theta|\bar{y})=N(\theta|\mu_n,\tau_n^2)
p(θ∣y1,y2,...yn)=p(θ∣yˉ)=N(θ∣μn,τn2)
,其中
μ
n
=
1
τ
0
2
μ
0
+
n
σ
2
y
ˉ
1
τ
0
2
+
1
σ
2
1
τ
n
2
=
1
τ
0
2
+
n
σ
2
\mu_n=\frac{\frac{1}{\tau_0^2}\mu_0+\frac{n}{\sigma^2}\bar{y}}{\frac{1}{\tau_0^2}+\frac{1}{\sigma^2}}\\\frac{1}{\tau_n^2}=\frac{1}{\tau_0^2}+\frac{n}{\sigma^2}
μn=τ021+σ21τ021μ0+σ2nyˉτn21=τ021+σ2n
当
τ
0
→
∞
\tau_0\to∞
τ0→∞或
n
→
∞
n\to∞
n→∞时,
p
(
θ
∣
y
)
≈
N
(
θ
∣
y
ˉ
,
σ
2
n
)
p(\theta|y)\approx N(\theta|\bar{y},\frac{\sigma^2}{n})
p(θ∣y)≈N(θ∣yˉ,nσ2)。
4. estimating normal variance with known mean
此时轮换,改为方差未知的正态分布。此时likelihood计算公式满足,
p
(
y
∣
σ
2
)
∝
σ
−
n
e
−
1
2
σ
2
∑
i
=
1
n
(
y
i
−
θ
)
2
=
(
σ
2
)
−
n
2
e
−
n
2
σ
2
ν
p(y|\sigma^2)\propto \sigma^{-n}e^{-\frac{1}{2\sigma^2}\sum_{i=1}^n(y_i-\theta)^2}\\=(\sigma^2)^{-\frac{n}{2}}e^{-\frac{n}{2\sigma^2}\nu}
p(y∣σ2)∝σ−ne−2σ21∑i=1n(yi−θ)2=(σ2)−2ne−2σ2nν
其中,
ν
=
1
n
∑
i
=
1
n
(
y
i
−
θ
)
2
\nu=\frac{1}{n}\sum_{i=1}^n(y_i-\theta)^2
ν=n1i=1∑n(yi−θ)2
此时,
σ
2
\sigma^2
σ2的共轭先验分布是inverse-gamma分布,
p
(
σ
2
)
∝
(
σ
2
)
−
α
+
1
e
−
β
σ
2
p(\sigma^2)\propto (\sigma^2)^{-\alpha+1}e^{-\frac{\beta}{\sigma^2}}
p(σ2)∝(σ2)−α+1e−σ2β
一种简便的设置参数的方式是初始化一个inverse-chi-square分布(这种分布与inverse-gamma的关系看维基百科或参考书),可得到待估计参数
σ
2
\sigma^2
σ2的后验分布,
p
(
σ
2
∣
y
)
∝
p
(
σ
2
)
p
(
y
∣
σ
2
)
p(\sigma^2|y)\propto p(\sigma^2)p(y|\sigma^2)
p(σ2∣y)∝p(σ2)p(y∣σ2)
最终可得,
σ
2
∣
y
∼
I
n
v
−
χ
2
(
ν
0
+
n
,
ν
0
σ
2
+
n
ν
ν
0
+
n
)
\sigma^2|y\sim Inv-\chi^2(\nu_0+n,\frac{\nu_0\sigma^2+n\nu}{\nu_0+n})
σ2∣y∼Inv−χ2(ν0+n,ν0+nν0σ2+nν)