05.第二章 抽样分布及若干预备知识(4)

第二章 抽样分布及预备知识(4)

1.极限分布

极限分布:当样本容量 n n n趋向于无穷时,统计量的分布趋向于一个确定分布,这个确定分布便称为统计量的极限分布,也常称为大样本分布。样本容量 n → ∞ n\to\infty n时的性质称为大样本性质。

大样本性质与小样本性质的区别不在于样本个数的多杀,而在于是否是在 n → ∞ n\to\infty n的前提下考虑。

2.指数族的判定

指数族:设 F = { f ( x , θ ) : θ ∈ Θ } \mathscr F=\{f(\boldsymbol x,\theta):\theta\in\Theta\} F={f(x,θ):θΘ}是定义在样本空间 X \mathscr X X上的分布族,其中 Θ \Theta Θ为参数空间。如果概率函数或分布列 f ( x , θ ) f(x,\theta) f(x,θ)可以表示成以下形式:
f ( x , θ ) = C ( θ ) exp { ∑ i = 1 k Q i ( θ ) T i ( x ) } h ( x ) f(\boldsymbol x,\theta)=C(\theta)\text{exp}\{\sum_{i=1}^kQ_i(\theta)T_i(\boldsymbol x)\}h(\boldsymbol x) f(x,θ)=C(θ)exp{i=1kQi(θ)Ti(x)}h(x)
则此分布族被称为指数型分布族,其中 k k k为正整数, C ( θ ) , Q i ( θ ) C(\theta),Q_i(\theta) C(θ),Qi(θ)都是定义在参数空间 Θ \Theta Θ上的函数, h ( x ) h(\boldsymbol x) h(x) T i ( x ) T_i(\boldsymbol x) Ti(x)都是定义在样本空间 X \mathscr X X上的函数。注意:是面对样本空间的函数,而非总体的函数。(但如果把样本容量设置为1,表现形式也与总体函数类似)

指数族的一个重要性质是,所有分布拥有共同的支撑集(支撑集是密度函数不为0的点构成的集合)。如果一个分布族支撑集与参数有关,那它就一定不是指数族。

常见的指数族:

  • 正态分布族 N ( a , σ 2 ) N(a,\sigma^2) N(a,σ2) θ = ( a , σ 2 ) \theta=(a,\sigma^2) θ=(a,σ2)
    f ( x ; a , σ 2 ) = ( 1 2 π σ ) n exp { − ∑ i = 1 n ( x i − a ) 2 2 σ 2 } = ( 2 π σ ) − n exp { − 1 2 σ 2 ∑ i = 1 n x i 2 + a σ 2 ∑ i = 1 n x i − a 2 2 σ 2 } = ( 2 π σ ) − n e − a 2 / 2 σ 2 exp { − 1 2 σ 2 ∑ i = 1 n x i 2 + a σ 2 ∑ i = 1 n x i } \begin{aligned} f(\boldsymbol x;a,\sigma^2)=&\left(\frac{1}{\sqrt{2\pi}\sigma}\right)^n\text{exp}\left\{-\frac{\sum_{i=1}^n (x_i-a)^2}{2\sigma^2}\right\}\\ =&(\sqrt{2\pi }\sigma)^{-n}\text{exp}\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^nx_i^2+\frac{a}{\sigma^2}\sum_{i=1}^nx_i-\frac{a^2}{2\sigma^2}\right\}\\ =&(\sqrt{2\pi}\sigma)^{-n}e^{-a^2/2\sigma^2}\text{exp}\left\{-\frac{1}{2\sigma^2}\sum_{i=1}^nx_i^2+\frac{a}{\sigma^2}\sum_{i=1}^nx_i\right\} \end{aligned} f(x;a,σ2)===(2π σ1)nexp{2σ2i=1n(xia)2}(2π σ)nexp{2σ21i=1nxi2+σ2ai=1nxi2σ2a2}(2π σ)nea2/2σ2exp{2σ21i=1nxi2+σ2ai=1nxi}
    此时令 C ( θ ) = ( 2 π σ ) − n e − a 2 / 2 σ 2 , h ( x ) = 1 C(\theta)=(\sqrt{2\pi}\sigma)^{-n}e^{-a^2/2\sigma^2},h(\boldsymbol x)=1 C(θ)=(2π σ)nea2/2σ2,h(x)=1即可。

  • Γ \Gamma Γ分布族 Γ ( α , λ ) \Gamma(\alpha,\lambda) Γ(α,λ) θ = ( α , λ ) \theta=(\alpha,\lambda) θ=(α,λ)
    f ( x ; α , λ ) = ( λ α Γ ( α ) ) n ( ∏ i = 1 n x i α − 1 ) e − λ ∑ i = 1 n x i = λ α n [ Γ ( α ) ] n exp { − λ ∑ i = 1 n x i } ( ∏ i = 1 n x i ) α − 1 \begin{aligned} f(\boldsymbol x;\alpha,\lambda)=&\left(\frac{\lambda^\alpha}{\Gamma(\alpha)}\right)^n\left(\prod_{i=1}^n x_i^{\alpha-1}\right)e^{-\lambda \sum_{i=1}^nx_i}\\ =&\frac{\lambda^{\alpha n}}{[\Gamma(\alpha)]^n}\text{exp}\left\{-\lambda\sum_{i=1}^n x_i\right\}\left(\prod_{i=1}^nx_i\right)^{\alpha-1} \end{aligned} f(x;α,λ)==(Γ(α)λα)n(i=1nxiα1)eλi=1nxi[Γ(α)]nλαnexp{λi=1nxi}(i=1nxi)α1
    此时令 C ( θ ) = λ α n [ Γ ( α ) ] n , h ( x ) = ( ∏ i = 1 n x i ) α − 1 C(\theta)=\frac{\lambda^{\alpha n}}{[\Gamma(\alpha)]^n},h(\boldsymbol x)=(\prod_{i=1}^n x_i)^{\alpha-1} C(θ)=[Γ(α)]nλαn,h(x)=(i=1nxi)α1即可。由于 Γ \Gamma Γ分布族属于指数族,依赖于它的指数分布族、 χ 2 \chi^2 χ2分布族也是指数族。

  • 二项分布族 b ( n , θ ) b(n,\theta) b(n,θ):此时参数仅仅为 θ \theta θ,将 n n n视为定值,考虑单样本情形
    P { X = x } = C n x θ x ( 1 − θ ) 1 − x f ( x ; θ ) = C n x θ x ( 1 − θ ) n − x = ( 1 − θ ) n exp { x ln θ 1 − θ } C n x \mathbf P\{X=x\}=C_n^{x}\theta^{x}(1-\theta)^{1-x}\\ \begin{aligned} f(x;\theta) =C_n^x&\theta^x(1-\theta)^{n-x}\\ =&(1-\theta)^n\text{exp}\left\{x \text{ln}\frac{\theta}{1-\theta}\right\}C_n^x \end{aligned} P{X=x}=Cnxθx(1θ)1xf(x;θ)=Cnx=θx(1θ)nx(1θ)nexp{xln1θθ}Cnx
    此时令 C ( θ ) = ( 1 − θ ) n , h ( x ) = C n x C(\theta)=(1-\theta)^n,h(x)=C_n^x C(θ)=(1θ)n,h(x)=Cnx即可。注意:样本分布组是否为指数族,不依赖于样本大小 n n n

  • 泊松分布族 P ( θ ) P(\theta) P(θ)
    f ( x ; θ ) = P { X = x } = θ x x ! e − θ = e − θ exp { x ln θ } 1 x ! \begin{aligned} f(x;\theta)=&\mathbf P\{X=x\}\\ =&\frac{\theta^x}{x!}e^{-\theta}\\ =&e^{-\theta}\text{exp}\left\{ x\text{ln}\theta\right\}\frac{1}{x!} \end{aligned} f(x;θ)===P{X=x}x!θxeθeθexp{xlnθ}x!1
    此时令 C ( θ ) = e − θ , h ( x ) = 1 x ! C(\theta)=e^{-\theta},h(x)=\frac1{x!} C(θ)=eθ,h(x)=x!1即可。

指数族的自然形式:采取适当的参数变换,将 e e e的指数部分的含参函数 Q i ( θ ) Q_i(\theta) Qi(θ)置换成单参数 φ i \varphi_i φi,就成为指数族的自然形式。

指数族的性质:

  • 在指数自的自然形式下,自然参数空间为凸集。凸集指的是 ∀ θ 1 , θ 2 ∈ Θ , α ∈ [ 0 , 1 ] \forall \theta_1,\theta_2\in \Theta, \alpha\in [0,1] θ1,θ2Θ,α[0,1],有 α θ 1 + ( 1 − α ) θ 2 ∈ Θ \alpha\theta_1+(1-\alpha)\theta_2\in\Theta αθ1+(1α)θ2Θ
  • 指数族的自然形式关于其参数的任意阶偏导数可以在积分号下求得,即求导与积分可交换。

3.充分统计量

充分统计量:对于统计量 T ( X ) T(\boldsymbol X) T(X),如果它保留了样本 X \boldsymbol X X中包含参数 θ \theta θ的全部信息,则称此统计量为充分的。即——在已知 T = T ( X ) T=T(\boldsymbol X) T=T(X)的情况下,样本 X \boldsymbol X X的条件分布与参数 θ \theta θ无关。所谓的条件分布,离散情形下是条件概率,连续情形下是条件密度。

  • 计算条件概率,经常会使用 P ( B ∣ A ) = P ( A B ) P ( A ) \boldsymbol P(B|A)=\frac{\boldsymbol P(AB)}{\boldsymbol P(A)} P(BA)=P(A)P(AB)
  • 计算条件密度,会使用公式 f X ∣ Y ( x ∣ y ) = f ( x , y ) f Y ( y ) f_{X|Y}(x|y)=\frac{f(x,y)}{f_Y(y)} fXY(xy)=fY(y)f(x,y)

利用定义证明某个统计量是充分统计量稍嫌麻烦,因此有因子分解定理可以用来寻找充分统计量。

因子分解定理:设样本 X = ( X 1 , ⋯   , X n ) \boldsymbol X=(X_1,\cdots,X_n) X=(X1,,Xn)的概率函数 f ( x , θ ) f(\boldsymbol x,\theta) f(x,θ)依赖于参数 θ \theta θ T = T ( X ) T=T(\boldsymbol X) T=T(X)是一个统计量。则 T T T是充分统计量的充要条件
f ( x , θ ) = g ( t ( x ) , θ ) h ( x ) f(\boldsymbol x,\theta)=g(t(\boldsymbol x),\theta)h(\boldsymbol x) f(x,θ)=g(t(x),θ)h(x)
这里 h ( x ) h(\boldsymbol x) h(x)不依赖于参数 θ \theta θ t ( x ) t(\boldsymbol x) t(x)的统计量 T ( X ) T(\boldsymbol X) T(X)的观察值。

  • 如果 φ \varphi φ是单值可逆函数, T T T是充分统计量,则 φ ( T ) \varphi(T) φ(T)也是充分统计量。
  • 指数族 f ( x , θ ) = C ( θ ) exp { ∑ i = 1 k Q i ( θ ) T i ( x ) } h ( x ) f(\boldsymbol x,\theta)=C(\theta)\text{exp}\{\sum_{i=1}^kQ_i(\theta)T_i(\boldsymbol x)\}h(\boldsymbol x) f(x,θ)=C(θ)exp{i=1kQi(θ)Ti(x)}h(x)中,显然 { T i ( X ) } \{T_i(\boldsymbol X)\} {Ti(X)}是充分统计量。
  • 对任何一维分布族,次序统计量是充分的。

极小充分统计量:设 T T T是分布族 F \mathscr F F的充分统计量,若对任意充分统计量 S S S,存在一个函数 q S ( ⋅ ) q_S(\cdot) qS()使得 T = q S ( S ) T=q_S(S) T=qS(S),则称 T ( X ) T(X) T(X)是此分布族的极小充分统计量。这里用函数定义极小,是因为函数的输出端维数总小于输入端。

4.完全统计量

完全统计量:设 F = { f ( x , θ ) , θ ∈ Θ } \mathscr F=\{f(x,\theta),\theta\in \Theta\} F={f(x,θ),θΘ}是一个分布族, T = T ( X ) T=T(\boldsymbol X) T=T(X)是任一统计量,若对任何满足条件 E θ φ ( T ( X ) ) = 0 E_\theta \varphi(T(X))=0 Eθφ(T(X))=0的函数 φ \varphi φ,都有 P θ ( φ ( T ( X ) ) = 0 ) = 1 P_\theta(\varphi(T(X))=0)=1 Pθ(φ(T(X))=0)=1,则称此统计量是完全的。如果统计量 T T T的概率密度函数为 g θ ( t ) g_\theta(t) gθ(t),则 E θ φ ( T ( X ) ) = 0 E_\theta\varphi(T(X))=0 Eθφ(T(X))=0可以写成
∫ − ∞ ∞ φ ( t ) g θ ( t ) d t = 0 \int_{-\infty}^\infty \varphi(t)g_\theta(t)dt=0 φ(t)gθ(t)dt=0
直观看来,就是函数 φ ( t ) \varphi(t) φ(t)与密度函数 g θ ( t ) g_\theta(t) gθ(t)正交。如果对任意正交函数 φ ( t ) \varphi(t) φ(t),可以推出 φ ( t ) = 0 \varphi(t)=0 φ(t)=0的概率为1,则称统计量 T T T是完全的。

对于一般分布族,用定义验证较为麻烦,但如果是指数族,对于自然形式
f ( x , θ ) = C ( θ ) exp { ∑ i = 1 k θ i T i ( x ) } h ( x ) , θ = ( θ 1 , ⋯   , θ k ) ∈ Θ ∗ f(\boldsymbol{x,\theta})=C(\boldsymbol \theta)\text{exp}\left\{\sum_{i=1}^k \theta_iT_i(\boldsymbol x)\right\}h(\boldsymbol x),\boldsymbol \theta=(\theta_1,\cdots,\theta_k)\in \Theta^* f(x,θ)=C(θ)exp{i=1kθiTi(x)}h(x),θ=(θ1,,θk)Θ
而言,只要自然参数空间 Θ ∗ \Theta^* Θ有内点,那么 T ( X ) T(\boldsymbol X) T(X)就是完全统计量。

如果要证明一个统计量不是完备的,就只要找到一个实函数,使得 E θ φ ( T ) = 0 E_\theta \varphi(T)=0 Eθφ(T)=0,但 φ ( T ) = 0  a.s. P θ \varphi(T)=0 \text{ a.s.}P_\theta φ(T)=0 a.s.Pθ不成立即可。

有界完全统计量是对完全统计量约束的放宽,完全统计量要求任何正交函数 φ ( t ) = 0 \varphi(t)=0 φ(t)=0,而有界完全统计量只需要有界正交函数 φ ( t ) = 0 \varphi(t)=0 φ(t)=0即可。因此完全统计量一定是有界完全统计量,反之不一定对。

Basu定理给定了一个判断统计量之间独立性的依据,若 T ( X ) T(\boldsymbol X) T(X)是有界完全统计量又是充分统计量, V ( X ) V(\boldsymbol X) V(X)的分布与参数无关,则对任何 θ ∈ Θ \theta\in\Theta θΘ T ( X ) T(\boldsymbol X) T(X) V ( X ) V(\boldsymbol X) V(X)独立。对于指数族,则有 V ( X ) V(\boldsymbol X) V(X)的分布与 T ( X ) T(\boldsymbol X) T(X)无关。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值