第四章、区间估计
4.1区间估计基本概念
4.1.1区间估计
参数估计分为点估计和区间估计,第三章中我们已经对众多点估计方法有了比较详细的介绍。而现在我们思考下,用点估计量来估计参数,估计正确的概率是多少呢?如果是连续型总体的话,估计量等于参数真值的概率是0!也就是说,点估计对于判断准确的把握是微乎其微的,所以我们需要提出区间估计。
点估计是用一个统计量来作为参数的估计,区间估计是找两个统计量
例
也就是说,随机区间
4.1.2评价区间估计好坏
就像点估计部分提到的一样,根据区间估计的定义,我们可以选取任何满足
※置信度准则
随机区间涵盖参数真值的概率称为置信度,即下面这个概率
(注意我们不说参数
然而这个概率一般来说是与
所以我们希望置信系数能够比较高。
例 样本
解 使用区间
对概率中事件的等价变形,根据之前的定理可以配凑出
我们运气比较好,这个概率不依赖分布的参数,所以此时置信度也就是置信系数。在
我们可以看到
然而是不是置信度越高越好呢?当然不是,比如我们取整个实数轴作为区间估计,那么它涵盖参数真值的概率就是1,但是这样就没有任何意义了!所以我们还希望区间的长度不要太大,这也就是下面的精确度准则。
※精确度准则
关于这个准则有不同的标准,用的最多的就是随机区间
例 求上面例子中区间估计的平均长度
解 上下限相减,关于样本均值那项消掉,剩下关于样本方差的。而正态总体的样本方差分布与卡方有关,于是通过配凑得到平均长度为
在样本容量固定的情况下,我们将两个例子比较一下:
- k越大,平均长度越大,精确度越低
- k越大,置信系数越高,置信度越高
可以发现,置信度与精确度实际上是相互制约的,如果我们追求高置信度,那么精确度就必然有损失,反之同理。但考虑到我们当时提出区间估计,就是要解决点估计的置信度低这么一个问题,所以统计学家Neyman提出:在保证置信度的前提下,追求高的精确度。
4.1.3置信区间
根据名字,置信区间应该从属于置信度准则,下面是书上对它的定义,其中
定义 对给定的
此时
这一区间估计实际上是一个统计量,当样本确定后,它就是一个完全确定的区间,也就是区间估计的一个实现。需要注意一点,不能把概率写成
因为小写代表的是区间估计的实现,它是一个具体的区间,而参数真值也是一个具体的值,其中没有任何随机的东西了,求概率就没有任何意义!
我们可以从两个角度来理解置信区间,对于一个置信系数为
- 你可以理解为我们抽取样本后,得到区间估计的一个实现,它至少有
的机会包含参数真值.
- 也可以理解为,我们抽取100组样本,得到区间估计的100个实现,其中应该有
个区间包含参数真值.
对于上面这个图,中间的黑线就是那个实际存在但你我都不知道的参数真值,而黄线代表了我们抽取样本后得到的区间估计的实现,其中包含黑线的黄线数量,反映了区间估计的置信系数。
4.1.4同等置信区间
根据Neyman原则, 在保证置信度的前提下,我们要兼顾精确度。所以在给定置信水平为
定义 对给定的
4.1.5置信限
有时我们只关心参数不低于多少或不超过多少,比如研究电视机寿命时只会希望它不低于某个值,研究污染指数时只会希望它不高于某个值,这样我们就要用到置信限的概念。
将之前定义中的区间改为
类似地,我们将大于等于改成等于,就得到了同等单侧置信区间和同等单侧上下限.
下面这个引理给出单侧置信区间与双侧置信区间的关系,只是用来熟悉概念,之后并不会用它做任何事情:
引理 设
证明 完全按照定义,把单侧置信限翻译成概率条件
利用概率运算得
4.1.6置信域
置信域是针对多个代估参数的,这时参数空间是多维的,所以“区间”就变成了多维空间中的“区域”,二维时我们一般选取矩形区域,三维时取椭球、长方体区域等。
4.2枢轴(变)量法
枢轴量法是帮助我们寻找合适的区间估计的方法,主要分为三步:
- 构造枢轴量
- 根据置信水平,得常数
(如果是单侧则只有一个常数)
- 等价改写概率得区间估计
什么是枢轴量?
枢轴量满足两个要求:
- 形式上包含代估参数和样本,且不包含任何其他未知的参数
- 分布完全已知
关于第一点的说明:
- 对于两个参数都未知的正态总体,如果求期望
的区间估计,那么构造的枢轴量就必须含有,且必须不含有!
- 因为枢轴量中包含了代估参数,实际上也是未知参数,所以它不是统计量!
如何构造枢轴量?
从代估参数的点估计量或是充分统计量出发,通过配凑让分布中不包含任何未知参数。
如何选取常数?
以求同等置信区间为例,我们已经构造了枢轴量
而满足上面这个概率等式的常数
- 选取的常数使得平均置信区间长度
最小.
- 如果使得平均置信区间长度最小的常数不易计算得出,就选取使得两头概率一样的常数,即
这样得出的区间也称为等尾置信区间.特别当枢轴量的分布是对称的时候,可以取常数
啥叫等价改写概率?
将概率中不等式
通过等价变形改写为关于代估参数不等式,即
例 样本
解
第一步,通过点估计量或充分统计量构造枢轴量。
参数
第二步,找常数
由置信水平条件有
其中第一个等式利用密度函数
第三步,等价改写概率得区间估计
第二步中概率等价于
所以区间估计为
第二步中符合概率条件的常数有很多,所以我们想要选取一组使得平均区间长度最短,即
利用条件极值方法得到