漫步数理统计三十三——采样与统计量

本篇博文介绍一些有用的推断工具:置信区间与假设检验。

在典型的统计问题中,我们对随机变量 X 感兴趣,但是对其pdff(x)与pmf p(x) 不知道,对此大致有两个类别:

  1. f(x) p(x) 完全未知
  2. f(x) p(x) 的形式已知,包含参数 θ ,其中 θ 可能是向量

目前考虑第二类问题,考虑几个这样的例子:

  1. X 满足指数分布,exp(θ),其中 θ 未知。
  2. X 满足二项分布b(n,p),其中 n 已知但p未知。
  3. X 满足伽玛分布Γ(α,β),其中 α,β 未知。

我们经常这样描述这样的问题,随机变量 X 满足形式为f(x;θ),p(x;θ)的密度或质量,其中 θΩ 属于某个集合 Ω 。例如上面的(1), Ω={θ|θ>0} ,我们称 θ 为分布的参数,因为 θ 是未知的,所以我们想估计它。我们首先讨论一些估计量的性质,随后再给出估计的常用方法。因为估计是基于样本的,故我们会形式化采样过程。

为了理解这个想法,考虑一个盒子中有 m 个球,出了标号为1,,m不同外其它都一样,我们随机选择一个球然后记下数字,令 X 表示该数字,那么X的分布为

P(X=x)=1m, for x=1,,m

考虑这种情况,盒子里有许多球但是我们不知道有多少,也就是 m 未知,那么那种情况下θ=m,Ω是正整数集合,为了得到 m 的信息,我们从球中取n个样本,表示为 X=(X1,,Xn) ,其中 Xi 表示第 i 个球的数字。

接下里我们介绍两种采样方法,分别为:

  1. :我们随机选一个球记下数字后放回去,然后继续随机抽,得到的 X1,,Xn 是互相独立的随机变量且分布相同,我们定义为随机样本。

    • :随意选 n 个球,如果一次选一个的话,每次选完后不放回。得到的X1,,Xn不是独立的且每个 Xi 有相同的分布,这种采样类型常称为随机采样。
    • 如果 m 远大于n,那么两种方法实际一样。

      1 (随机样本)随机变量 X1,,Xn 如果互相独立且有相同的分布,那么他们构成了随机变量 X 的随机样本,我们简述为X1,,Xn iid ;即独立同分布。

      F(x),f(x) 分别表示 X 的cdf与pdf,那么X1,,Xn的联合cdf为

      FX1,,Xn(x1,,xn)=i=1nF(xi)

      而联合pdf为

      fX1,,Xn(x1,,xn)=i=1nf(xi)

      同样的方式可定义离散随机变量 X ,我们常使用向量符号来表示样本X=(X1,,Xn),接下来定义统计量。

      2 (统计量)假设n n 个随机变量X1,X2,X3,,Xn是随机变量 X 分布中的一个样本,那么任何样本函数T=T(X1,,Xn)称为统计量。

      在高等课程中,我们将需要函数是博莱尔度量。

      因为统计量是样本的函数,所以它也是随机变量,统计量经常是数据的总结,像统计量 T=T(X1,,Xn) 可能包含未知参数 θ 的信息,这时候我们称统计量是 θ 的点估计量,回忆一下之前说过,如果 E(T)=θ ,那么 T θ的无偏估计,如果依概率 Tθ ,那么 T θ的一致估计。一旦得到的随机样本, X1,,Xn 的观测为 x1,,xn ,那么值 T(x1,,xn) 称为 θ 的点估计。那么什么是好的点估计呢?接下来我们讨论一些估计的性质,下面的实例给出了一些问题。

      1 还是考虑取球的例子, m 个球标记为1,,m,假设 m 未知,为了估计m我们需要有放回的得到随机样本,每个 Xi 的分布为 P(X=x)=1/m,x=1,,m m 的直观点估计量为T=max{X1,,Xn},这就是 m 好的估计量,但是T m 有多远呢?一种方式是考虑T的分布, T 的支撑为{1,,m},为了确定 T 的cdf,注意因为T X 观测的最大时,所以事件Tt可以表示为

      {Tt}={X1t,,Xnt}=ni=1{Xit}

      其中 1tm ,因此根据 X1,,Xn 是独立同分布的, T 的iid为

      P[Tt]=i=1nP[Xit]=[P(X1t)]n=([t]m)n

      其中 [t] 表示小于等于 t 的最大整数,因此对于0tm

      P[Tnt]=([t]m)n{01t<mt=m

      因此 TnDm ,根据前面的定理可知 TnPm ,所以 Tn m 的一致估计。

      注意在这个问题中,E(X¯)=(m+1)/2,因此 E(2X¯1)=m ,其中 X¯=n1ni=1Xi 表示样本均值,也许 2X¯1 也是 m 的一个好的无偏估计量,如果这个满足的话,我们后面会说明T是更好的估计量。

      2 假设 X 是随机变量,未知参数为θ X1,,Xn X 分布中得到随机样本,令X¯=n1ni=1Xi是样本均值,那么因为 E(X¯)=θ ,所以统计量 X¯ θ 的无偏估计量,但是 X¯ θ 有多远呢?之后我们会介绍一般情况下的结论,目前先考虑特殊情况,假设 X 满足正态分布N(θ,σ2) σ2 已知,那么 X¯ 的分布为 N(θ,σ2/n) ,然后就可以用 X¯ 分布的知识会到问题。因为 (X¯θ)/(σ/n) 满足标准正态分布, N(0,1) ,所以我们有

      0.954=P(2<X¯θσ/θ<2)=P(X¯2σn<θ<X¯+2σn)

      上式表明,在采样以前, θ 落在随机区间 (X¯2σn,X¯+2σn) 的概率为0.954,采完样之后, θ 可能落在实际区间

      (x¯2σn,x¯+2σn)

      也可能不在,但是因为有很高的概率落在区间内即0.954,所以区间为 θ 的95.4\%置信区间,0.954=95.4\%称为置信系数。注意随着置信的增加,置信区间的长度也会增加,即增加置信意味着降低准确度,另一方面对于任意的置信系数,样本增加也会缩短置信区间。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值