指数分布族的定义
如果
{
P
θ
:
θ
∈
Θ
}
\{P_\theta: \theta\in\Theta\}
{Pθ:θ∈Θ}是关于
σ
−
\sigma-
σ−有限测度
ν
\nu
ν定义在
(
Ω
,
F
)
(\Omega, \mathcal{F})
(Ω,F)上的分布族,其被成为指数分布族(exponential family)当且仅当
d
P
θ
d
ν
(
x
)
=
exp
{
η
(
θ
)
T
T
(
x
)
−
A
(
θ
)
}
h
(
x
)
,
x
∈
Ω
,
\frac{d P_\theta}{d \nu}(x)=\exp\{\eta(\theta)^T T(x)-A(\theta)\}h(x),\quad x\in\Omega,
dνdPθ(x)=exp{η(θ)TT(x)−A(θ)}h(x),x∈Ω,
其中
T
T
T是一个随机的
p
−
p-
p−维向量,其维数
p
p
p固定,
η
:
Θ
→
R
p
\eta: \Theta\to \mathcal{R}^p
η:Θ→Rp,
h
h
h是一个非负的在
(
Ω
,
F
)
(\Omega, \mathcal{F})
(Ω,F)上的Borel函数。
自然参数形式1
如果
x
i
x_i
xi的密度函数属于指数分布族,则具有如下形式:
f
(
x
∣
θ
,
ϕ
)
=
exp
{
x
θ
−
b
(
θ
)
a
(
ϕ
)
+
c
(
x
,
ϕ
)
}
,
f(x|\theta, \phi)=\exp\left\{\frac{x\theta-b(\theta)}{a(\phi)}+c(x,\phi)\right\},
f(x∣θ,ϕ)=exp{a(ϕ)xθ−b(θ)+c(x,ϕ)},
其中:
1.
θ
\theta
θ是指数族的参数,是我们感兴趣的;
ϕ
\phi
ϕ是尺度参数或讨厌参数。
2.
a
(
⋅
)
,
b
(
⋅
)
,
c
(
⋅
,
⋅
)
a(\cdot), b(\cdot), c(\cdot,\cdot)
a(⋅),b(⋅),c(⋅,⋅)是依据不同指数分布族而确定的函数,注意
c
(
⋅
,
⋅
)
c(\cdot,\cdot)
c(⋅,⋅)与
θ
\theta
θ无关。
性质
对于上式的指数分布族形式,利用积分号下求偏导可以得到:
E
(
x
)
=
b
′
(
θ
)
V
(
x
)
=
a
(
ϕ
)
b
′
′
(
θ
)
\mathbf{E}(x)=b'(\theta)\\ \mathbf{V}(x)=a(\phi)b''(\theta)
E(x)=b′(θ)V(x)=a(ϕ)b′′(θ)
自然参数形式2
如果存在1-1变换
ξ
(
θ
)
=
(
ξ
1
(
θ
)
,
⋯
,
ξ
s
(
θ
)
)
:
Θ
→
E
⊂
R
s
\xi(\theta)=(\xi_1(\theta),\cdots,\xi_s(\theta)): \Theta\to \mathbb{E}\subset\mathbb{R}^s
ξ(θ)=(ξ1(θ),⋯,ξs(θ)):Θ→E⊂Rs, 此时分布族
P
=
{
P
θ
,
θ
∈
Θ
}
\mathcal{P}=\{\mathbb{P}_\theta, \theta\in\Theta\}
P={Pθ,θ∈Θ}可以重新参数化为
P
=
{
P
ξ
,
ξ
∈
E
}
.
\mathcal{P}=\{\mathbb{P}_\xi, \xi\in \mathbb{E}\}.
P={Pξ,ξ∈E}.
于是,可以得到指数分布族的自然参数形式:
f
(
x
,
ξ
)
=
exp
{
∑
i
=
1
s
ξ
i
T
i
(
x
)
−
A
(
ξ
)
}
h
(
x
)
.
f(x,\xi)=\exp\left\{\sum_{i=1}^s \xi_i T_i(x)-A(\xi)\right\}h(x).
f(x,ξ)=exp{i=1∑sξiTi(x)−A(ξ)}h(x).
且
T
=
(
T
1
,
⋯
,
T
s
)
T=(T_1,\cdots,T_s)
T=(T1,⋯,Ts)是完全充分统计量
性质
通过自然参数形式可以得到:
E
ξ
(
T
i
(
x
)
)
=
∂
A
(
ξ
)
∂
ξ
i
∂
ξ
j
C
o
v
ξ
(
T
i
(
x
)
,
T
j
(
x
)
)
=
∂
A
(
ξ
)
∂
ξ
i
∂
ξ
j
\mathbf{E}_\xi(T_i(x))=\frac{\partial A(\xi)}{\partial \xi_i\partial \xi_j}\\ \mathbf{Cov}_\xi(T_i(x), T_j(x))=\frac{\partial A(\xi)}{\partial \xi_i\partial \xi_j}
Eξ(Ti(x))=∂ξi∂ξj∂A(ξ)Covξ(Ti(x),Tj(x))=∂ξi∂ξj∂A(ξ)
可识别性
设
{
P
ξ
,
ξ
∈
E
}
\{\mathbb{P}_\xi, \xi\in\mathbb{E}\}
{Pξ,ξ∈E}是一个指数分布族,其分布密度由自然参数形式给出,则
{
P
ξ
,
ξ
∈
E
}
\{\mathbb{P}_\xi, \xi\in\mathbb{E}\}
{Pξ,ξ∈E}为可识别的充要条件是
T
(
x
)
=
{
T
1
(
x
)
,
⋯
,
T
s
(
x
)
}
T(x)=\{T_1(x),\cdots, T_s(x)\}
T(x)={T1(x),⋯,Ts(x)}的各分量不存在下列关系式:
α
1
T
1
(
x
)
+
⋯
+
α
s
T
s
(
x
)
=
α
0
,
\alpha_1T_1(x)+\cdots+\alpha_sT_s(x)=\alpha_0,
α1T1(x)+⋯+αsTs(x)=α0,
其中
α
1
,
⋯
,
α
s
\alpha_1, \cdots, \alpha_s
α1,⋯,αs为不全为零的常数,
α
0
\alpha_0
α0为常数。
巴苏定理
辅助统计量: 设 ( X , B X , P ) (\mathcal{X},\mathcal{B}_\mathcal{X},\mathcal{P}) (X,BX,P), P = { P θ ∈ Θ } \mathcal{P}=\{\mathbb{P}_\theta\in\Theta\} P={Pθ∈Θ}为统计模型, V V V为统计量,如果 V V V的分布族与参数 θ \theta θ无关,即统计量 V V V不含任何关于分布参数的信息,则称 V V V为辅助统计量。
巴苏定理: 在统计模型 ( X , B X , P ) (\mathcal{X}, \mathcal{B}_\mathcal{X},\mathcal{P}) (X,BX,P), P = { P θ , θ ∈ Θ } \mathcal{P}=\{\mathbb{P}_\theta, \theta\in\Theta\} P={Pθ,θ∈Θ}中,设 T T T是完全充分统计量, V V V是辅助统计量,则 V V V和 T T T相互独立。
广义线性模型
广义线性模型是根据指数分布族构造的一类模型,其中的关键是连接函数(link funciton)的选择。
对于下面的形式
f
(
x
∣
θ
,
ϕ
)
=
exp
{
x
θ
−
b
(
θ
)
a
(
ϕ
)
+
c
(
x
,
ϕ
)
}
,
f(x|\theta, \phi)=\exp\left\{\frac{x\theta-b(\theta)}{a(\phi)}+c(x,\phi)\right\},
f(x∣θ,ϕ)=exp{a(ϕ)xθ−b(θ)+c(x,ϕ)},
我们在估计参数
θ
\theta
θ时,因为知道
μ
=
E
(
x
)
=
b
′
(
θ
)
\mu=\mathbf{E}(x)=b'(\theta)
μ=E(x)=b′(θ), 自然会想到利用
μ
\mu
μ来对
θ
\theta
θ进行估计。但是,我们并不知道
μ
\mu
μ和样本
x
x
x之间的关系,这个时候就需要一个连接函数(link function)
g
(
⋅
)
g(\cdot)
g(⋅)来建立这两者之间的关系
g
(
μ
)
=
β
T
x
g(\mu)=\beta^Tx
g(μ)=βTx(通常我们认为通过变换
μ
\mu
μ可以表示为样本的线性函数,或者叫作单指标形式,当然也可以有其他特别的形式), 如果
g
(
⋅
)
=
b
′
−
1
(
⋅
)
g(\cdot)=b^{'-1}(\cdot)
g(⋅)=b′−1(⋅)我们称其为正则连接函数(Canonical Link function)。最后可以通过关系式
θ
=
b
′
−
1
(
g
(
β
T
x
)
)
\theta=b^{'-1}(g(\beta^Tx))
θ=b′−1(g(βTx))并结合极大似然估计来估计
θ
\theta
θ。
对于常见的贝努力分布
b
(
1
,
p
)
b(1,p)
b(1,p),
f
(
x
,
p
)
=
exp
[
x
log
(
p
1
−
p
)
+
log
(
1
−
p
)
]
,
f(x,p)=\exp\left[x\log\left(\frac{p}{1-p}\right)+\log(1-p)\right],
f(x,p)=exp[xlog(1−pp)+log(1−p)],
其中
μ
\mu
μ与
p
p
p的关系有
μ
=
p
\mu=p
μ=p, 设置连接函数
β
T
x
=
log
(
μ
1
−
μ
)
\beta^Tx=\log(\frac{\mu}{1-\mu})
βTx=log(1−μμ), 则有
p
=
1
1
+
e
−
β
T
x
.
p=\frac{1}{1+e^{-\beta^Tx}}.
p=1+e−βTx1.
这就是logist回归模型。
进一步,如果选择连接函数满足 p = Φ ( β T x ) p=\Phi(\beta^Tx) p=Φ(βTx), 就probit回归模型。
当然,更进一步的推广是将连接函数 g ( ⋅ ) g(\cdot) g(⋅)视为未知的,可以利用非参数统计的方法进行估计。
总结
1.指数分布族可以很容易得到期望和方差的计算方法;
2.利用巴苏定理可以判断统计量之间的独立性;
3.广义线性是以指数分布族为基础的,利用好的连接函数可以得到很多有用的模型。