Glivenko-Cantelli class & Donsker class

本文介绍了概率论中的两个重要概念——Glivenko-Cantelli类和Donsker类。Glivenko-Cantelli定理表明,经验分布函数几乎处处收敛于概率分布函数。而Donsker定理则进一步确保了这一收敛性的统一性,特别是在函数类的全体上。文章通过熵和覆盖数的概念,给出了两类的充分条件,并讨论了其在统计学习和随机过程中的应用。
摘要由CSDN通过智能技术生成

Glivenko-Cantelli class & Donsker class


X 1 , . . . , X n X_1,...,X_n X1,...,Xn是来自于可测空间 ( X , A ) (\mathcal{X},\mathcal{A}) (X,A) 上概率分布 P P P 的随机样本。经验分布函数是观测值的离散均匀测度,记 δ x \delta_x δx x x x 处的概率分布,则令 P n = n − 1 ∑ i = 1 n δ X \mathbb{P}_n = n^{-1}\sum_{i=1}^n\delta_X Pn=n1i=1nδX。若对于可测函数 f : X ↦ R f:\mathcal{X}\mapsto\mathbb{R} f:XR,记 P n f \mathbb{P}_nf Pnf 是经验测度下 f f f 的期望, P n f P_nf Pnf 是 概率分布 P P P f f f 的期望。因此,
P n f = 1 n ∑ i = 1 n f ( X i ) , P n f = ∫ f d P . \mathbb{P}_nf = \frac{1}{n}\sum_{i=1}^nf(X_i) , P_nf = \int f dP. Pnf=n1i=1nf(Xi),Pnf=fdP.
由大数定律知, P n f \mathbb{P}_nf Pnf几乎处处收敛于 P n f P_nf Pnf

The abstract Glivenko-Cantelli theorems make this result uniform in f f f ranging over a class of functions.

Glivenko-Cantelli class

A class F \mathcal{F} F of measurable functions f : X ↦ R f : \mathcal{X} \mapsto \mathbb{R} f:XR is called P-Glivenko-Cantelli if
∥ P n f − P f ∥ F = sup ⁡ f ∈ F ∣ F n f − P f ∣ ⟶ a . s . 0. \|\mathbb{P}_n f - Pf\|_{\mathcal{F}} = \sup_{f\in\mathcal{F}}|\mathbb{F}_nf-Pf|\stackrel{a.s.}{\longrightarrow}0. PnfPfF=fFsupFnfPfa.s.0.
The empirical process evaluated at f f f is defined as G n f = n ( P n f − P f ) \mathbb{G}_nf = \sqrt{n}(\mathbb{P}_n f - Pf) Gnf=n (PnfPf).
由多元中心极限定理,给定任一可测函数 f i f_i fi的有限集,满足 P f i 2 < ∞ Pf_i^2<\infty Pfi2<, 有
( G n f 1 , . . . , G n f k ) ⇝ ( G P f 1 , . . . , G P f k ) 。 (\mathbb{G}_nf_1,...,\mathbb{G}_nf_k) \leadsto(\mathbb{G}_Pf_1,...,\mathbb{G}_Pf_k)。 (Gnf1,...,Gnfk)(GPf1,...,GPfk)
右边的向量服从一个均值为0,方差为
E G P f G P g = P f g − P f P g E\mathbb{G}_Pf\mathbb{G}_Pg = Pfg-PfPg EGPfGPg=PfgPfPg
的正态分布。

The abstract Donsker theorems make this result “uniform” in classes of functions

Donsker class

A class F \mathcal{F} F of measurable functions f : X ↦ R f : \mathcal{X}\mapsto\mathbb{R} f:XR is called P -Donsker if the sequence of processes { G n f : f ∈ F } \{\mathbb{G}_nf : f \in\mathcal{F}\} {Gnf:fF} converges in distribution to a tight limit process in the space l ∞ ( F ) \mathcal{l}^\infty(\mathcal{F}) l(F) .

判断

判断函数类是Glivenko Cantelli族还是Donsker族取决于类的“大小”。
##某些情况下,一个可积函数的有限类总是G-C族,一个二次可积的有限类总是G-C族或Donsker族。
衡量 F \mathcal{F} F类的大小的一个相对简单的方法是用熵来衡量。
这里主要考虑相对于 L r ( P ) L_r(P) Lr(P)范数的bracketing熵
∥ f ∥ P , r = ( P ∣ f ∣ r ) 1 r \|f\|_{P,r} = (P|f|^r)^{\frac{1}{r}} fP,r=(Pfr)r1.
给定两个函数 l l l u u u,bracket [ l , u ] [l,u] [l,u] 是满足 $l \leq f \leq u$。
L r ( P ) L_r(P) Lr(P)上的 ϵ \epsilon ϵ-bracket [ l , u ] [l,u] [l,u] 满足 P ( u − l ) r < ϵ r P(u-l)^r<\epsilon^r P(ul)r<ϵr

Bracketing number N [    ] ( ϵ , F , L r ( P ) ) N_{[\;]}(\epsilon,\mathcal{F},L_r(P)) N[](ϵ,F,Lr(P)) 是用 ϵ \epsilon ϵ-brackets 覆盖 F \mathcal{F} F 的最小数目。 Bracketing function l l l u u u L r ( P ) L_r(P) Lr(P)范数有限的,但不一定属于 F \mathcal{F} F。Bracketing entropy(熵) 就是 log ⁡ ( b r a c k e t i n g    n u m b e r ) \log(bracketing\;number) log(bracketingnumber)

P-Glivenko-Cantelli的一个简单的条件是对每一 ϵ > 0 \epsilon>0 ϵ>0, L 1 ( P ) L_1(P) L1(P) 上的 bracketing numbers 是有限的。

Theorem 1 (Glivenko- Cantelli)
Every class F \mathcal{F} F of measurable functions such that N [    ] ( ϵ , F , L 1 ( P ) ) < ∞ N_{[\;]}(\epsilon, \mathcal{F}, L_1 (P)) < \infty N[](ϵ,F,L1(P))< for every ϵ > 0 \epsilon > 0 ϵ>0 is P-Glivenko-Cantelli.

Donsker族的一个充分条件是当 ϵ ↓ 0 \epsilon\downarrow0 ϵ0 时, N [ ] ( ϵ , F , L r ( P ) ) N_{[]}(\epsilon,\mathcal{F},L_r(P)) N[](ϵ,F,Lr(P)) 增长到 ∞ \infty 的速度不要过快,增长速度可以通过 bracketing integral 来衡量
J [ ] ( δ , F , L 2 ( P ) ) = ∫ 0 δ log ⁡ N [    ] ( ϵ , F , L 2 ( P ) ) d ϵ . J_{[]}(\delta,\mathcal{F},L_2(P)) = \int_0^{\delta}\sqrt{\log{N_{[\;]}(\epsilon,\mathcal{F},L_2(P))}}d\epsilon. J[](δ,F,L2(P))=0δlogN[](ϵ,F,L2(P)) dϵ.
如果以上积分是有限值,则 F \mathcal{F} F 是 P-Donsker族。被积函数是关于 ϵ \epsilon ϵ 的减函数,所以,积分的收敛性依赖于 ϵ ↓ 0 \epsilon\downarrow0 ϵ0 时 bracketing numbers 的大小。由于 r < 1 r<1 r<1时, ∫ 0 1 ϵ − r d ϵ \int_0^1\epsilon^{-r}d\epsilon 01ϵrdϵ收敛; r > 1 r>1 r>1时, ∫ 0 1 ϵ − r d ϵ \int_0^1\epsilon^{-r}d\epsilon 01ϵrdϵ发散,因此,积分条件大致要求熵增长的速度慢于 ( 1 / ϵ ) 2 (1/\epsilon)^2 (1/ϵ)2

Theorem 2 (Donsker)
Every class F \mathcal{F} F of measurable functions with J [    ] ( 1 , F , L 2 ( P ) ) < ∞ J_{[\; ]}(1,\mathcal{F}, L_2 (P))<\infty J[](1,F,L2(P))< is P-Donsker.

Covering number N ( ϵ , F , L 2 ( Q ) ) N(\epsilon, \mathcal{F}, L_2(Q)) N(ϵ,F,L2(Q)) 是覆盖集 F \mathcal{F} F 所需的半径为 ϵ \epsilon ϵ L 2 ( Q ) L_2(Q) L2(Q)球的最小数目。熵是覆盖数的对数 ( e n t r o p y = log ⁡ ( C o v e r i n g    n u m b e r ) ) (entropy = \log(Covering\; number)) (entropy=log(Coveringnumber))。 Donsker theorems 可以用 uniform covering numbers 代替。
uniform covering numbers:
sup ⁡ Q N ( ϵ ∥ F ∥ Q , r , F , L r ( Q ) ) \sup_Q N(\epsilon\|F\|_{Q,r}, \mathcal{F}, L_r(Q)) QsupN(ϵFQ,r,F,Lr(Q))
此上确界适用于所有的概率测度Q,对于这些测度, F \mathcal{F} F类不等于零且 ∥ F ∥ Q , r r = Q F r > 0 \|F\|_{Q,r}^r = QF^r>0 FQ,rr=QFr>0。uniform covering numbers 与给定的 envelope function F F F 相关。
一致覆盖数与给定的包络函数F有关。

如果 covering numbers 被 envelope function 的 norm ∥ F ∥ Q , r \|F\|_{Q,r} FQ,r 标准化,在不同测度 Q Q Q 下,covering numbers 也会比较稳定。

uniform entropy integral:
J ( δ , F , L 2 ) = ∫ 0 δ log ⁡ sup ⁡ Q N ( ϵ ∥ F ∥ Q , r , F , L 2 ( Q ) ) d ϵ J(\delta, \mathcal{F},L_2) = \int_0^{\delta} \sqrt{\log\sup_QN(\epsilon\|F\|_{Q,r}, \mathcal{F},L_2(Q))}d\epsilon J(δ,F,L2)=0δlogQsupN(ϵFQ,r,F,L2(Q)) dϵ

Theorem 3 (Glivenko-Cantelli). Let F \mathcal{F} F be a suitably measurable class of measurable functions with sup ⁡ Q N ( ϵ ∥ F ∥ Q , 1 , F , L 1 ( Q ) ) < ∞ \sup_Q N (\epsilon\|F\|_{Q,1}, \mathcal{F}, L_1(Q)) < \infty supQN(ϵFQ,1,F,L1(Q))< for every ϵ > 0 \epsilon > 0 ϵ>0. If P ∗ F 2 < ∞ P* F^2 < \infty PF2<, then F \mathcal{F} F is P-Glivenko-Cantelli.

Theorem 4 (Donsker). Let F \mathcal{F} F be a suitably measurable class of measurable functions with J ( 1 , F , L 2 ) < ∞ J(1, \mathcal{F}, L_2) < \infty J(1,F,L2)<. If P ∗ F 2 < ∞ P*F^2 < \infty PF2<, then F \mathcal{F} F is P-Donsker.
“suitably measurable”: 没有给出一个一般的定义,但是注意到存在一个函数的可数集合 G \mathcal{G} G,使得每个 f f f G \mathcal{G} G 中序列 g m g_m gm的逐点极限就足够了。

[1]:Asymptotic Statistics

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值