指数族分布与相关性质(1) 定义、联合分布、微分性质

引言

指数族分布具有许多优良的性质。许多常见的概率分布都可以归为指数族分布。

1.1 典型形式s参数指数族分布

p η ( x ) = e x p [ ∑ i = 1 s η i T i ( x ) − A ( η ) ] h ( x ) p_{\eta}(x)=exp[\sum_{i=1}^{s}\eta_iT_i(x)-A(\eta)]h(x) pη(x)=exp[i=1sηiTi(x)A(η)]h(x)

其中, A ( η ) A(\eta) A(η)起到了归一化的作用。 h ( x ) h(x) h(x)是从 R n R^n Rn R R R的非负函数参数 η \eta η的取值范围称为自然参数空间,定义为 { η : A ( η ) < ∞ } \{\eta:A(\eta)< \infin\} {η:A(η)<}.此时,指数族分布由 η \eta η参数化,这种参数化方式的指数族分布称为s-parameter exponential family in canonical form.

A ( η ) A(\eta) A(η)的定义是:
A ( η ) = l o g ∫ e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) A(\eta)=log\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x) A(η)=logexp[i=1sηiTi(x)]h(x)dμ(x)
其中, μ \mu μ R s \mathbb{R}^s Rs上的测度。

这些 T T T实际上是统计量,数学上严格地说是从 R n \mathbb{R}^n Rn R \mathbb{R} R上的可测函数。

1.2 另一种参数化

p θ ( x ) = e x p [ ∑ i = 1 s η i ( θ ) T i ( x ) − B ( θ ) ] h ( x ) p_\theta(x)=exp[\sum_{i=1}^{s}\eta_i(\theta)T_i(x)-B(\theta)]h(x) pθ(x)=exp[i=1sηi(θ)Ti(x)B(θ)]h(x)

这种用 θ \theta θ参数化,使得 η \eta η θ \theta θ的函数。这种形式的指数族分布称为s-parameter exponential family.正态分布、伯努利分布等都属于指数族分布。

1.3 联合分布

X 1 , ⋯   , X n ∼ i . i . d . P θ ( x ) X_1, \cdots, X_n \sim i.i.d. P_\theta(x) X1,,Xni.i.d.Pθ(x),则联合密度是
p θ ( X 1 , ⋯   , X n ) = e x p ( ∑ i = 1 s η i ( θ ) ( ∑ j = 1 n T i ( x j ) ) − n B ( θ ) ) ∏ j = 1 n h ( x j ) p_\theta(X_1, \cdots, X_n)=exp(\sum_{i=1}^{s}\eta_i(\theta)(\sum_{j=1}^{n}T_i(x_j))-nB(\theta))\prod_{j=1}^{n}h(x_j) pθ(X1,,Xn)=exp(i=1sηi(θ)(j=1nTi(xj))nB(θ))j=1nh(xj)
仍然是一个s-parameter的指数族分布。

2.性质

指数族分布具有许多良好的性质。对于典型形式(canonical form)的指数族分布来说,可以联系统计量 T 1 , ⋯   , T s T_1, \cdots, T_s T1,,Ts的矩和累积量与 A ( η ) A(\eta) A(η)的导数之间的关系。

2.1 可微性

典型形式指数族分布有一个重要定理:令 Ξ f \Xi_f Ξf η ∈ R s \eta \in \mathbb{R}^s ηRs的一个集合,使得
∫ ∣ f ( x ) ∣ e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) < ∞ \int|f(x)|exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x)<\infin f(x)exp[i=1sηiTi(x)]h(x)dμ(x)<

g ( η ) = ∫ f ( x ) e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) g(\eta)=\int f(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x) g(η)=f(x)exp[i=1sηiTi(x)]h(x)dμ(x)
是连续的,并且在 Ξ f \Xi_f Ξf的内点存在无穷阶连续偏导。进一步的,微分号可以和积分互换位置。

利用上面的定理,可以推导下面的结果: f = 1 f=1 f=1时,观察到 g ( η ) = e A ( η ) = ∫ e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) g(\eta)=e^{A(\eta)}=\int exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x) g(η)=eA(η)=exp[i=1sηiTi(x)]h(x)dμ(x).

对第二个等式的两侧同时对典型形式的指数族分布的参数 η j \eta_j ηj同时求导,得到
e A ( η ) ∂ A ( η ) ∂ η j = ∫ T j ( x ) e x p [ ∑ i = 1 s η i T i ( x ) ] h ( x ) d μ ( x ) e^{A(\eta)}\frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)exp[\sum_{i=1}^{s}\eta_iT_i(x)]h(x)d\mu(x) eA(η)ηjA(η)=Tj(x)exp[i=1sηiTi(x)]h(x)dμ(x)
左右两边同时除以 e A ( η ) e^{A(\eta)} eA(η),就得到
∂ A ( η ) ∂ η j = ∫ T j ( x ) p η ( x ) d μ ( x ) = E η [ T j ( x ) ] \frac{\partial A(\eta)}{\partial \eta_j}=\int T_j(x)p_\eta(x)d\mu(x)\\ =\mathbb{E}_\eta[T_j(x)] ηjA(η)=Tj(x)pη(x)dμ(x)=Eη[Tj(x)]
因此,发现统计量 T j T_j Tj的一阶矩就是 A ( η ) A(\eta) A(η) η j \eta_j ηj的导数。

2.2 控制收敛定理

上面谈到,对于 g ( η ) = A ( η ) g(\eta)=A(\eta) g(η)=A(η)进行微分时,可以把微分提到积分号里面去,这并不是一个显然的性质。这一小节我们来说明这件事情。

控制收敛定理:令 f n , n ≥ 1 f_n,n\ge1 fn,n1是一个函数列,且对 ∀ n ≥ 1 \forall n\ge1 n1,有 ∣ f n ∣ < g ( a . e . μ ) |f_n|<g(a.e. \mu) fn<g(a.e.μ)。若 ∫ g d μ < ∞ \int gd\mu<\infin gdμ<,且对于 a . e . x a.e. x a.e.x在测度 μ \mu μ下有 lim ⁡ n → ∞ f n ( x ) = f ( x ) \lim_{n\rightarrow\infin}f_n(x)=f(x) limnfn(x)=f(x),则当 n → ∞ n \rightarrow \infin n时有
∫ f n d μ → ∫ f d μ \int f_n d\mu \rightarrow \int fd\mu fndμfdμ
下面要说明对于 g ( η ) g(\eta) g(η)来说,微分可以提到积分号里面。为简便,设 s = 1 s=1 s=1,则
g ( η ) = e A ( η ) = ∫ e η T ( x ) h ( x ) d μ ( x ) g(\eta)=e^{A(\eta)}=\int e^{\eta T(x)}h(x)d\mu(x) g(η)=eA(η)=eηT(x)h(x)dμ(x)
η ∈ [ − 2 ϵ , 2 ϵ ] \eta\in[-2\epsilon,2\epsilon] η[2ϵ,2ϵ]时积分有限,考虑 g ( η ) g(\eta) g(η) η = 0 \eta=0 η=0处的导数,有
lim ⁡ n → ∞ e ϵ / n − e A ( 0 ) ϵ / n = lim ⁡ n → ∞ ∫ e ϵ T ( x ) / n − 1 ϵ / n d μ ( x ) = lim ⁡ n → ∞ ∫ f n ( x ) d μ ( x ) \begin{aligned} \lim_{n\rightarrow \infin} \frac{e^{\epsilon/n}-e^{A(0)}}{\epsilon/n}&= \lim_{n\rightarrow \infin} \int \frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}d\mu(x)\\ &=\lim_{n\rightarrow \infin}\int f_n(x)d\mu(x) \end{aligned} nlimϵ/neϵ/neA(0)=nlimϵ/neϵT(x)/n1dμ(x)=nlimfn(x)dμ(x)
进一步的,由下面两个不等式, ∀ t ∈ R \forall t \in R tR
∣ e t − 1 ∣ ≤ ∣ t ∣ e ∣ t ∣ ∣ t ∣ ≤ e ∣ t ∣ |e^t-1|\le |t|e^{|t|} \\ |t|\le e^{|t|} et1∣tettet

∣ e ϵ T ( x ) / n − 1 ϵ / n ∣ ≤ ∣ ϵ T ( x ) ∣ ϵ e ∣ ϵ T ( x ) ∣ ≤ 1 ϵ ( e 2 ϵ T ( x ) − e − 2 ϵ T ( x ) ) |\frac{e^{\epsilon T(x)/n}-1}{\epsilon/n}| \le \frac{|\epsilon T(x)|}{\epsilon}e^{|\epsilon T(x)|} \le \frac{1}{\epsilon}(e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})\\ ϵ/neϵT(x)/n1ϵϵT(x)eϵT(x)ϵ1(e2ϵT(x)e2ϵT(x))

这里面不停的放缩,以及用小技巧去掉了绝对值。

由此,等式左侧乘以 h ( x ) h(x) h(x)就是 ∣ f n ( x ) ∣ |f_n(x)| fn(x)。注意 h ( x ) h(x) h(x)是个非负的量,这是指数族分布定义中阐述的。而等式左侧也乘以 h ( x ) h(x) h(x),定义为 g ( x ) g(x) g(x)。容易发现,等式右侧是积分有限的,因为
∫ ( e 2 ϵ T ( x ) − e − 2 ϵ T ( x ) ) h ( x ) d μ ( x ) = e A ( 2 ϵ ) + e A ( − 2 ϵ ) \int (e^{2\epsilon T(x)}-e^{-2\epsilon T(x)})h(x)d\mu(x)=e^{A(2\epsilon)}+e^{A(-2\epsilon)} (e2ϵT(x)e2ϵT(x))h(x)dμ(x)=eA(2ϵ)+eA(2ϵ)
而指数族分布定义时已经表明 A ( η ) < ∞ A(\eta)<\infin A(η)<,因此,积分有限。故等式满足控制收敛定理,左侧可以表达为函数列的积分的极限等于函数列极限的积分。因此,导数作为作为一种极限,就满足了交换的条件。

个人理解,可能有误,请大家指正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值