二分法闭区间开区间_数理统计第19讲(区间估计概念,枢轴量法)

本文介绍了区间估计的基本概念,包括置信区间、精确度准则和枢轴量法。讨论了如何评价区间估计的好坏,如置信度与精确度的平衡,并通过实例阐述了置信区间的构造和置信限的应用。同时,讲解了枢轴量法的三个步骤,用于找到合适的区间估计。
摘要由CSDN通过智能技术生成

第四章、区间估计

4.1区间估计基本概念

4.1.1区间估计

参数估计分为点估计和区间估计,第三章中我们已经对众多点估计方法有了比较详细的介绍。而现在我们思考下,用点估计量来估计参数,估计正确的概率是多少呢?如果是连续型总体的话,估计量等于参数真值的概率是0!也就是说,点估计对于判断准确的把握是微乎其微的,所以我们需要提出区间估计。

点估计是用一个统计量来作为参数的估计,区间估计是找两个统计量

,其中对任何样本观测值都有
,并用区间
作为参数的
区间估计(量)。(注意, 闭区间不是必要的,可以是开区间也可以是左开右闭等等)

是取自正态总体
的样本,那么
就是
的一个区间估计.在点估计部分,我们用样本均值作为
的点估计量,似乎这样是比较精确的(因为只用量来估计),但是样本均值刚好等于
的概率是为0的,而用区间
来估计,正确的概率是

也就是说,随机区间

涵盖参数真值的概率是0.9544(
注意不说
属于区间的概率)
,这是个比较高的概率!

4.1.2评价区间估计好坏

就像点估计部分提到的一样,根据区间估计的定义,我们可以选取任何满足

的两个统计量作为任何参数的区间估计。所以我们需要对给定的区间估计,给出一些评价的准则。我们在点估计部分提到了非常多的准则:无偏,有效,相合,渐进正态,均方误差等等。但区间估计的评价准则就只有两个:置信度和精确度。

※置信度准则

随机区间涵盖参数真值的概率称为置信度,即下面这个概率

(注意我们不说参数

属于区间的概率,因为这个概率中随机项是区间)
我们希望置信度越高越好。

然而这个概率一般来说是与

有关的,如果一个区间估计对于某些
置信度比较高,对于另外一些则比较低,那么我们也不认为这样的区间估计是好的。我们希望的是最小的置信度也比较高,这里的最小置信度也就是
置信系数,定义为

所以我们希望置信系数能够比较高。

样本

取自正态总体
,其中两个参数都未知,考察均值
的区间估计.

使用区间

作为均值
的区间估计,其中样本方差为
,也就是前面的
(为什么是这个形式之后会说),求一下它的置信系数。

对概率中事件的等价变形,根据之前的定理可以配凑出

分布形式

我们运气比较好,这个概率不依赖分布的参数,所以此时置信度也就是置信系数。在

的条件下,取不同的
,置信系数分别为

我们可以看到

是置信度最高的。

然而是不是置信度越高越好呢?当然不是,比如我们取整个实数轴作为区间估计,那么它涵盖参数真值的概率就是1,但是这样就没有任何意义了!所以我们还希望区间的长度不要太大,这也就是下面的精确度准则。

※精确度准则

关于这个准则有不同的标准,用的最多的就是随机区间

平均长度
,我们自然希望这个平均长度越小越好,这样用区间来估计参数就越精确。

求上面例子中区间估计的平均长度

上下限相减,关于样本均值那项消掉,剩下关于样本方差的。而正态总体的样本方差分布与卡方有关,于是通过配凑得到平均长度为

在样本容量固定的情况下,我们将两个例子比较一下:

  • k越大,平均长度越大,精确度越低
  • k越大,置信系数越高,置信度越高

可以发现,置信度与精确度实际上是相互制约的,如果我们追求高置信度,那么精确度就必然有损失,反之同理。但考虑到我们当时提出区间估计,就是要解决点估计的置信度低这么一个问题,所以统计学家Neyman提出:在保证置信度的前提下,追求高的精确度

4.1.3置信区间

根据名字,置信区间应该从属于置信度准则,下面是书上对它的定义,其中

可能会让人感到不习惯,这是因为第五章中显著性水平所使用的
与这里的
有一定的关系

定义 对给定的

,参数
的置信系数不低于
的区间估计
称为
的置信水平为
的置信区间,即

此时

分别称为参数
的置信水平为
的(双侧)置信下限和(双侧)置信上限。

这一区间估计实际上是一个统计量,当样本确定后,它就是一个完全确定的区间,也就是区间估计的一个实现。需要注意一点,不能把概率写成

因为小写代表的是区间估计的实现,它是一个具体的区间,而参数真值也是一个具体的值,其中没有任何随机的东西了,求概率就没有任何意义!

我们可以从两个角度来理解置信区间,对于一个置信系数为

的置信区间,
它的含义是什么呢
  • 你可以理解为我们抽取样本后,得到区间估计的一个实现,它至少有
    的机会包含参数真值.
  • 也可以理解为,我们抽取100组样本,得到区间估计的100个实现,其中应该有
    个区间包含参数真值.

39af8b0513abffeae0420f3b52c27ddc.png

对于上面这个图,中间的黑线就是那个实际存在但你我都不知道的参数真值,而黄线代表了我们抽取样本后得到的区间估计的实现,其中包含黑线的黄线数量,反映了区间估计的置信系数。

4.1.4同等置信区间

根据Neyman原则, 在保证置信度的前提下,我们要兼顾精确度。所以在给定置信水平为

的前提下,我们会取区间估计使得其涵盖真值的概率刚好等于
,这也就是同等置信区间,其定义与置信区间只相差一点:

定义 对给定的

,参数
的置信系数等于
的区间估计
称为
的置信水平为
的同等置信区间,即

4.1.5置信限

有时我们只关心参数不低于多少或不超过多少,比如研究电视机寿命时只会希望它不低于某个值,研究污染指数时只会希望它不高于某个值,这样我们就要用到置信限的概念。

将之前定义中的区间改为

,其中分别满足涵盖真值概率条件
,这时我们将
称为置信水平为
单侧置信区间(注意单侧不能省略,否则默认是双侧!),其中
分别称为
单侧置信下限单侧置信上限

类似地,我们将大于等于改成等于,就得到了同等单侧置信区间和同等单侧上下限.

下面这个引理给出单侧置信区间与双侧置信区间的关系,只是用来熟悉概念,之后并不会用它做任何事情:

引理

分别是参数的置信水平为
的单侧置信下、上限,那么
是参数的置信水平为
的双侧置信区间.

证明 完全按照定义,把单侧置信限翻译成概率条件

利用概率运算得

4.1.6置信域

置信域是针对多个代估参数的,这时参数空间是多维的,所以“区间”就变成了多维空间中的“区域”,二维时我们一般选取矩形区域,三维时取椭球、长方体区域等。

4.2枢轴(变)量法

枢轴量法是帮助我们寻找合适的区间估计的方法,主要分为三步

  • 构造枢轴量
  • 根据置信水平,得常数
    (如果是单侧则只有一个常数)
  • 等价改写概率得区间估计

什么是枢轴量?

枢轴量满足两个要求:

  • 形式上包含代估参数和样本,且不包含任何其他未知的参数
  • 分布完全已知

关于第一点的说明:

  1. 对于两个参数都未知的正态总体,如果求期望
    的区间估计,那么构造的枢轴量就必须含有
    ,且必须不含有
    !
  2. 因为枢轴量中包含了代估参数,实际上也是未知参数,所以它不是统计量!

如何构造枢轴量?

从代估参数的点估计量或是充分统计量出发,通过配凑让分布中不包含任何未知参数。

如何选取常数?

以求同等置信区间为例,我们已经构造了枢轴量

,那么根据置信水平我们需要选取常数满足

而满足上面这个概率等式的常数

有很多,因此一般还需遵循
两个原则
  • 选取的常数使得平均置信区间长度
    最小.
  • 如果使得平均置信区间长度最小的常数不易计算得出,就选取使得两头概率一样的常数,即

这样得出的区间也称为等尾置信区间.特别当枢轴量的分布是对称的时候,可以取常数

满足

啥叫等价改写概率?

将概率中不等式

通过等价变形改写为关于代估参数不等式,即

样本

取自均匀总体
,求参数
的置信水平为
的同等置信区间.

第一步,通过点估计量或充分统计量构造枢轴量。

参数

的一个充分统计量是
,将其除以
得到的
,其形式中有代估参数,且分布中不包含任何未知参数,所以
是合适的枢轴量.

第二步,找常数

由置信水平条件有

其中第一个等式利用密度函数

积分.

第三步,等价改写概率得区间估计

第二步中概率等价于

所以区间估计为

.

第二步中符合概率条件的常数有很多,所以我们想要选取一组使得平均区间长度最短,即

利用条件极值方法得到

,所以
的置信水平为
的最优同等置信区间.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值