单参数模型
Informative prior distribution
5. Poisson model
基本推导
对于一个单独的数据点
y
y
y而言,在参数为
θ
\theta
θ的泊松分布下,其概率分布函数为,
p
(
y
∣
θ
)
=
θ
y
e
−
θ
y
!
p(y|\theta)=\frac{\theta^ye^{-\theta}}{y!}
p(y∣θ)=y!θye−θ
,其中
y
=
1
,
2
,
.
.
.
y=1,2,...
y=1,2,...。而对于一系列的观测值
y
=
(
y
1
,
y
2
,
.
.
.
y
n
)
y=(y_1,y_2,...y_n)
y=(y1,y2,...yn),每个观测相互独立的情况下,其泊松分布的概率(likelihood)表示为,
p
(
y
∣
θ
)
=
∏
i
=
1
n
θ
y
e
−
θ
y
!
∝
θ
t
(
y
)
e
−
n
θ
p(y|\theta)=\prod_{i=1}^n\frac{\theta^ye^{-\theta}}{y!}\propto \theta^{t(y)}e^{-n\theta}
p(y∣θ)=i=1∏ny!θye−θ∝θt(y)e−nθ
其中,
t
(
y
)
=
∑
i
=
1
n
y
i
t(y)=\sum_{i=1}^ny_i
t(y)=∑i=1nyi,将上式改写为exponential families的形式,
p
(
y
∣
θ
)
∝
e
−
n
θ
e
t
(
y
)
l
o
g
θ
p(y|\theta)\propto e^{-n\theta}e^{t(y)log\theta}
p(y∣θ)∝e−nθet(y)logθ
这种形式对应的exponential families的natural parameter为
ϕ
(
θ
)
=
l
o
g
θ
\phi(\theta)=log\theta
ϕ(θ)=logθ,exponential families的形式下,待估计参数
θ
\theta
θ的先验分布与exponential families的参数形式相同,即共轭先验,则
θ
\theta
θ的先验分布可写为,
p
(
θ
)
∝
(
e
−
θ
)
η
e
ν
l
o
g
θ
p(\theta)\propto (e^{-\theta})^\eta e^{\nu log\theta}
p(θ)∝(e−θ)ηeνlogθ
,
θ
\theta
θ的先验分布由
η
\eta
η和
ν
\nu
ν两个参数决定,将上面likelihood的算式改写为另一种更简洁的形式形式
p
(
y
∣
θ
)
∝
θ
a
e
−
b
θ
p(y|\theta)\propto \theta^a e^{-b\theta}
p(y∣θ)∝θae−bθ,则
θ
\theta
θ的分布依据exponential families的性质,必然遵循同样的参数形式,
p
(
θ
)
∝
θ
A
e
B
θ
p(\theta)\propto \theta^Ae^{B\theta}
p(θ)∝θAeBθ,以一种更明显的形式表示,
p
(
θ
)
∝
e
−
β
θ
θ
α
−
1
p(\theta)\propto e^{-\beta\theta}\theta^{\alpha-1}
p(θ)∝e−βθθα−1
上式是一个以
α
\alpha
α和
β
\beta
β为参数的Gamma分布。确定参数
θ
\theta
θ的prior distribution和likelihood后可计算得到posterior distribution,
θ
∣
y
∼
G
a
m
m
a
(
α
+
n
y
ˉ
,
β
+
n
)
\theta|y\sim Gamma(\alpha+n\bar{y}, \beta+n)
θ∣y∼Gamma(α+nyˉ,β+n)
通过上面三个算式,可以计算观测值
y
y
y的边缘分布(prior predictive distribution),
p
(
y
)
=
p
(
y
∣
θ
)
p
(
θ
)
p
(
θ
∣
y
)
p(y)=\frac{p(y|\theta)p(\theta)}{p(\theta|y)}
p(y)=p(θ∣y)p(y∣θ)p(θ)
以一个观测值
y
y
y为例,
p
(
y
)
=
P
o
s
s
i
o
n
(
y
∣
θ
)
G
a
m
m
a
(
θ
∣
α
,
β
)
G
a
m
m
a
(
α
+
y
,
1
+
β
)
=
Γ
(
α
+
y
)
β
α
Γ
(
α
)
y
!
(
1
+
β
)
α
+
y
p(y)=\frac{Possion(y|\theta)Gamma(\theta|\alpha,\beta)}{Gamma(\alpha+y,1+\beta)}\\=\frac{\Gamma(\alpha+y)\beta^\alpha}{\Gamma(\alpha)y!(1+\beta)^{\alpha+y}}
p(y)=Gamma(α+y,1+β)Possion(y∣θ)Gamma(θ∣α,β)=Γ(α)y!(1+β)α+yΓ(α+y)βα
可以化简为,
p
(
y
)
=
C
y
α
+
y
−
1
(
β
1
+
β
)
α
(
1
1
+
β
)
y
p(y)=C_y^{\alpha+y-1}(\frac{\beta}{1+\beta})^\alpha(\frac{1}{1+\beta})^y
p(y)=Cyα+y−1(1+ββ)α(1+β1)y
上式的形式与负二项分布(negative binomial distribution)的形式相同,即
y
∼
N
e
g
−
b
i
n
o
m
(
α
,
β
)
y\sim Neg-binom(\alpha,\beta)
y∼Neg−binom(α,β)。这一结果说明,负二项分布是泊松分布与Gamma分布的混合形式,
N
e
g
−
b
i
n
o
m
(
y
∣
α
,
β
)
=
∫
P
o
s
s
i
o
n
(
y
∣
θ
)
G
a
m
m
a
(
θ
∣
α
,
β
)
d
θ
Neg-binom(y|\alpha,\beta)=\int Possion(y|\theta)Gamma(\theta|\alpha,\beta)d\theta
Neg−binom(y∣α,β)=∫Possion(y∣θ)Gamma(θ∣α,β)dθ
技巧
在很多场景中可以在多个数据点
y
1
,
y
2
,
.
.
.
y
n
y_1,y_2,...y_n
y1,y2,...yn上对泊松分布进行拓展,
y
i
∼
P
o
i
s
s
o
n
(
x
i
θ
)
y_i\sim Poisson(x_i\theta)
yi∼Poisson(xiθ)
其中,
x
i
x_i
xi是已知的解释变量,被称为"exposure of ith unit",
θ
\theta
θ是被关注的未知参数。经过这一调整后,模型从unexchangeable的
y
i
y_i
yi变成了exchangeable的
(
x
,
y
)
i
(x,y)_i
(x,y)i,此时likelihood的形式变化如下,
p
(
y
∣
θ
)
∝
θ
(
∑
i
=
1
n
y
i
)
e
−
(
∑
i
=
1
n
x
i
)
θ
p(y|\theta)\propto \theta^{(\sum_{i=1}^ny_i)}e^{-(\sum_{i=1}^nx_i)\theta}
p(y∣θ)∝θ(∑i=1nyi)e−(∑i=1nxi)θ,
θ
\theta
θ的共轭先验分布没有变化,依旧是
θ
∼
G
a
m
m
a
(
α
,
β
)
\theta\sim Gamma(\alpha,\beta)
θ∼Gamma(α,β),此时
θ
\theta
θ的后验分布服从
θ
∼
G
a
m
m
a
(
α
+
∑
i
=
1
n
y
i
,
β
+
∑
i
=
1
n
x
i
)
\theta\sim Gamma(\alpha+\sum_{i=1}^ny_i,\beta+\sum_{i=1}^nx_i)
θ∼Gamma(α+i=1∑nyi,β+i=1∑nxi)
这种技巧的关键在于,选取合理的exposure的值。
注释
exchangeable(可交换性):统计分析的起点通常都是假设n个 y i y_{i} yi都是可交换的,也就是联合概率密度 p ( y 1 , . . . , y n ) p(y_{1},...,y_{n}) p(y1,...,yn)的结果不随着索引的变化而改变。可交换性的思想是统计的基础,在很多问题中都存在。通常把来自具有交换性的分布的数据看作是在给定未知参数 θ \theta θ,其分布是 p ( θ ) p(\theta) p(θ)时,独立同分布的样本(independently and identically, i.i.d.)。
当产出的结果信息是相关的,与索引位置有关的时候,需要建立不可交换的模型。
6. Exponential model
指数分布常用于时间序列问题,对于一个数据而言,其指数分布的likelihood表达式为,
p
(
y
∣
θ
)
=
θ
e
−
y
θ
p(y|\theta)=\theta e^{-y\theta}
p(y∣θ)=θe−yθ
,其中
y
>
0
y>0
y>0。依据指数分布的性质,
E
(
y
∣
θ
)
=
1
θ
E(y|\theta)=\frac{1}{\theta}
E(y∣θ)=θ1,即
θ
=
1
E
(
y
∣
θ
)
\theta=\frac{1}{E(y|\theta)}
θ=E(y∣θ)1。此时是一种特殊的Gamma分布,
G
a
m
m
a
(
1
,
θ
)
Gamma(1,\theta)
Gamma(1,θ)。然而,在这种情况下,它被用作一个抽样分布的结果,不是一个参数
θ
\theta
θ的先验分布。
对于一系列的观测值
y
=
(
y
1
,
y
2
,
.
.
.
y
n
)
y=(y_1,y_2,...y_n)
y=(y1,y2,...yn),则likelihood表示为,
p
(
y
∣
θ
)
=
θ
n
e
n
y
ˉ
θ
p(y|\theta)=\theta^ne^{n\bar{y}\theta}
p(y∣θ)=θnenyˉθ
这一形式参考上一节的内容,待估计参数
θ
\theta
θ的共轭先验分布服从Gamma分布。当有一系列数据点时,
p
(
θ
)
∝
G
a
m
m
a
(
n
+
1
,
n
y
ˉ
)
p(\theta)\propto Gamma(n+1,n\bar{y})
p(θ)∝Gamma(n+1,nyˉ)
NonInformative prior distribution
当先验分布缺乏"population bias"时,先验分布是很难构建的。而且希望先验分布对后验分布的影响越小越好(因为有时候先验分布是过于主观的)。
1. proper and improper distribution
待补充
2. Jefferys’ invariance principle
待补充