引言
指数族分布具有许多优良的性质。许多常见的概率分布都可以归为指数族分布。
1.1 典型形式s参数指数族分布
p η ( x ) = e x p [ ∑ i = 1 s η i T i ( x ) − A ( η ) ] h ( x ) p_{\eta}(x)=exp[\sum_{i=1}^{s}\eta_iT_i(x)-A(\eta)]h(x) pη(x)=exp[i=1∑sηiTi(x)−A(η)]h(x)
其中, A ( η ) A(\eta) A(η)起到了归一化的作用。 h ( x ) h(x) h(x)是从 R n R^n Rn到 R R R的非负函数参数 η \eta η的取值范围称为自然参数空间,定义为 { η : A ( η ) < ∞ } \{\eta:A(\eta)< \infin\} {η:A(η)<∞}.此时,指数族分布由 η \eta η参数化,这种参数化方式的指数族分布称为s-parameter exponential family in canonical form.
A
(
η
)
A(\eta)
A(η)的定义是:
A
(
η
)
=
l
o
g
∫
e
x
p
[
∑
i
=
1
s
η
i
T
i
(
x
)
]
h
(
x
)
d
μ
(
x
)
A(\eta)=log\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
A(η)=log∫exp[i=1∑sηiTi(x)]h(x)dμ(x)
其中,
μ
\mu
μ是
R
s
\mathbb{R}^s
Rs上的测度。
这些 T T T实际上是统计量,数学上严格地说是从 R n \mathbb{R}^n Rn到 R \mathbb{R} R上的可测函数。
1.2 另一种参数化
p θ ( x ) = e x p [ ∑ i = 1 s η i ( θ ) T i ( x ) − B ( θ ) ] h ( x ) p_\theta(x)=exp[\sum_{i=1}^{s}\eta_i(\theta)T_i(x)-B(\theta)]h(x) pθ(x)=exp[i=1∑sηi(θ)Ti(x)−B(θ)]h(x)
这种用 θ \theta θ参数化,使得 η \eta η是 θ \theta θ的函数。这种形式的指数族分布称为s-parameter exponential family.正态分布、伯努利分布等都属于指数族分布。
1.3 联合分布
若
X
1
,
⋯
,
X
n
∼
i
.
i
.
d
.
P
θ
(
x
)
X_1, \cdots, X_n \sim i.i.d. P_\theta(x)
X1,⋯,Xn∼i.i.d.Pθ(x),则联合密度是
p
θ
(
X
1
,
⋯
,
X
n
)
=
e
x
p
(
∑
i
=
1
s
η
i
(
θ
)
(
∑
j
=
1
n
T
i
(
x
j
)
)
−
n
B
(
θ
)
)
∏
j
=
1
n
h
(
x
j
)
p_\theta(X_1, \cdots, X_n)=exp(\sum_{i=1}^{s}\eta_i(\theta)(\sum_{j=1}^{n}T_i(x_j))-nB(\theta))\prod_{j=1}^{n}h(x_j)
pθ(X1,⋯,Xn)=exp(i=1∑sηi(θ)(j=1∑nTi(xj))−nB(θ))j=1∏nh(xj)
仍然是一个s-parameter的指数族分布。
2.性质
指数族分布具有许多良好的性质。对于典型形式(canonical form)的指数族分布来说,可以联系统计量 T 1 , ⋯ , T s T_1, \cdots, T_s T1,⋯,Ts的矩和累积量与 A ( η ) A(\eta) A(η)的导数之间的关系。
2.1 可微性
典型形式指数族分布有一个重要定理:令
Ξ
f
\Xi_f
Ξf是
η
∈
R
s
\eta \in \mathbb{R}^s
η∈Rs的一个集合,使得
∫
∣
f
(
x
)
∣
e
x
p
[
∑
i
=
1
s
η
i
T
i
(
x
)
]
h
(
x
)
d
μ
(
x
)
<
∞
\int|f(x)|exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)<\infin
∫∣f(x)∣exp[i=1∑sηiTi(x)]h(x)dμ(x)<∞
则
g
(
η
)
=
∫
f
(
x
)
e
x
p
[
∑
i
=
1
s
η
i
T
i
(
x
)
]
h
(
x
)
d
μ
(
x
)
g(\eta)=\int f(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
g(η)=∫f(x)exp[i=1∑sηiTi(x)]h(x)dμ(x)
是连续的,并且在
Ξ
f
\Xi_f
Ξf的内点存在无穷阶连续偏导。进一步的,微分号可以和积分互换位置。
利用上面的定理,可以推导下面的结果: f = 1 f=1 f=1时,观察到 g ( η ) = e A ( η ) = ∫ e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) g(\eta)=e^{A(\eta)}=\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x) g(η)=eA(η)=∫exp[∑i=1sηiTi(x)]h(x)dμ(x).
对第二个等式的两侧同时对典型形式的指数族分布的参数
η
j
\eta_j
ηj同时求导,得到
e
A
(
η
)
∂
A
(
η
)
∂
η
j
=
∫
T
j
(
x
)
e
x
p
[
∑
i
=
1
s
η
i
T
i
(
x
)
]
h
(
x
)
d
μ
(
x
)
e^{A(\eta)}\frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)
eA(η)∂ηj∂A(η)=∫Tj(x)exp[i=1∑sηiTi(x)]h(x)dμ(x)
左右两边同时除以
e
A
(
η
)
e^{A(\eta)}
eA(η),就得到
∂
A
(
η
)
∂
η
j
=
∫
T
j
(
x
)
p
η
(
x
)
d
μ
(
x
)
=
E
η
[
T
j
(
x
)
]
\frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)p_\eta(x)d\mu(x)\\ =\mathbb{E}_\eta[T_j(x)]
∂ηj∂A(η)=∫Tj(x)pη(x)dμ(x)=Eη[Tj(x)]
因此,发现统计量
T
j
T_j
Tj的一阶矩就是
A
(
η
)
A(\eta)
A(η)对
η
j
\eta_j
ηj的导数。
2.2 控制收敛定理
上面谈到,对于 g ( η ) = A ( η ) g(\eta)=A(\eta) g(η)=A(η)进行微分时,可以把微分提到积分号里面去,这并不是一个显然的性质。这一小节我们来说明这件事情。
控制收敛定理:令
f
n
,
n
≥
1
f_n,n\ge1
fn,n≥1是一个函数列,且对
∀
n
≥
1
\forall n\ge1
∀n≥1,有
∣
f
n
∣
<
g
(
a
.
e
.
μ
)
|f_n|<g(a.e. \mu)
∣fn∣<g(a.e.μ)。若
∫
g
d
μ
<
∞
\int gd\mu<\infin
∫gdμ<∞,且对于
a
.
e
.
x
a.e. x
a.e.x在测度
μ
\mu
μ下有
lim
n
→
∞
f
n
(
x
)
=
f
(
x
)
\lim_{n\rightarrow\infin}f_n(x)=f(x)
limn→∞fn(x)=f(x),则当
n
→
∞
n \rightarrow \infin
n→∞时有
∫
f
n
d
μ
→
∫
f
d
μ
\int f_n d\mu \rightarrow \int fd\mu
∫fndμ→∫fdμ
下面要说明对于
g
(
η
)
g(\eta)
g(η)来说,微分可以提到积分号里面。为简便,设
s
=
1
s=1
s=1,则
g
(
η
)
=
e
A
(
η
)
=
∫
e
η
T
(
x
)
h
(
x
)
d
μ
(
x
)
g(\eta)=e^{A(\eta)}=\int e^{\eta T(x)}h(x)d\mu(x)
g(η)=eA(η)=∫eηT(x)h(x)dμ(x)
设
η
∈
[
−
2
ϵ
,
2
ϵ
]
\eta\in[-2\epsilon,2\epsilon]
η∈[−2ϵ,2ϵ]时积分有限,考虑
g
(
η
)
g(\eta)
g(η)在
η
=
0
\eta=0
η=0处的导数,有
lim
n
→
∞
e
ϵ
/
n
−
e
A
(
0
)
ϵ
/
n
=
lim
n
→
∞
∫
e
ϵ
T
(
x
)
/
n
−
1
ϵ
/
n
d
μ
(
x
)
=
lim
n
→
∞
∫
f
n
(
x
)
d
μ
(
x
)
\begin{aligned} \lim_{n\rightarrow \infin} \frac{e^{\epsilon/n}-e^{A(0)}}{\epsilon/n}&= \lim_{n\rightarrow \infin} \int \frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}d\mu(x)\\ &=\lim_{n\rightarrow \infin}\int f_n(x)d\mu(x) \end{aligned}
n→∞limϵ/neϵ/n−eA(0)=n→∞lim∫ϵ/neϵT(x)/n−1dμ(x)=n→∞lim∫fn(x)dμ(x)
进一步的,由下面两个不等式,
∀
t
∈
R
\forall t \in R
∀t∈R:
∣
e
t
−
1
∣
≤
∣
t
∣
e
∣
t
∣
∣
t
∣
≤
e
∣
t
∣
|e^t-1|\le |t|e^{|t|} \\ |t|\le e^{|t|}
∣et−1∣≤∣t∣e∣t∣∣t∣≤e∣t∣
∣ e ϵ T ( x ) / n − 1 ϵ / n ∣ ≤ ∣ ϵ T ( x ) ∣ ϵ e ∣ ϵ T ( x ) ∣ ≤ 1 ϵ ( e 2 ϵ T ( x ) − e − 2 ϵ T ( x ) ) |\frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}| \le \frac{|\epsilon T(x)|}{\epsilon}e^{|\epsilon T(x)|} \le \frac{1}{\epsilon}(e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})\\ ∣ϵ/neϵT(x)/n−1∣≤ϵ∣ϵT(x)∣e∣ϵT(x)∣≤ϵ1(e2ϵT(x)−e−2ϵT(x))
这里面不停的放缩,以及用小技巧去掉了绝对值。
由此,等式左侧乘以
h
(
x
)
h(x)
h(x)就是
∣
f
n
(
x
)
∣
|f_n(x)|
∣fn(x)∣。注意
h
(
x
)
h(x)
h(x)是个非负的量,这是指数族分布定义中阐述的。而等式左侧也乘以
h
(
x
)
h(x)
h(x),定义为
g
(
x
)
g(x)
g(x)。容易发现,等式右侧是积分有限的,因为
∫
(
e
2
ϵ
T
(
x
)
−
e
−
2
ϵ
T
(
x
)
)
h
(
x
)
d
μ
(
x
)
=
e
A
(
2
ϵ
)
+
e
A
(
−
2
ϵ
)
\int (e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})h(x)d\mu(x)=e^{A(2\epsilon)}+e^{A(-2\epsilon)}
∫(e2ϵT(x)−e−2ϵT(x))h(x)dμ(x)=eA(2ϵ)+eA(−2ϵ)
而指数族分布定义时已经表明
A
(
η
)
<
∞
A(\eta)<\infin
A(η)<∞,因此,积分有限。故等式满足控制收敛定理,左侧可以表达为函数列的积分的极限等于函数列极限的积分。因此,导数作为作为一种极限,就满足了交换的条件。
个人理解,可能有误,请大家指正。