“利用样本数据对总体方差进行区间估计的方法,以及相应的蒙特卡洛模拟”
对于某个总体(数据集),我们感兴趣的特性包括总体均值和总体方差,总体均值均值刻画了数据集的中心趋势(总体比率也是一种均值),总体方差体现了数据集的离散程度。如果总体的概率密度函数类型已知,根据总体均值和总体方差通常能够计算出概率密度函数中的未知参数(对于正态总体,均值和方差就是其概率密度函数中的未知参数)。前几次推文已经介绍了各种总体均值的区间估计,本文将介绍总体方差的区间估计。
用一个例子说明总体方差实际的应用场景:饮料生产工厂需要对某款饮料进行罐装,每个瓶子的平均装入量是一个重要指标,它可以用来计算成本、罐装效率、罐装速度等指标。此外,装入量的方差同样重要,如果方差较大,意味着有些瓶子装入量太多而有些瓶子装入量又太少。
01
—
总体方差的区间估计
枢轴统计量
根据中心极限定理可知,无论总体的概率分布如何,在样本容量充分大的条件下,样本均值或总和的抽样分布服从正态分布。然而,方差既不是均值也不是总和,因此不能使用中心极限定理解释。无论样本容量如何,对总体方差进行区间估计之前,必须检查总体是否符合一些假定(通常假定总体服从正态分布)。
对于单个总体方差的区间估计,当总体服从正态分布时,可选择卡方随机变量作为枢轴统计量,因为卡方随机变量联系了正态总体的方差和样本方差。
置信区间的推导
选择置信系数为1-α,将置信系数以外的概率α平分为两份,分别放在卡方分布的左尾和右尾,得到概率为1-α的包含枢轴统计量的区间(区间端点为下图箭头指示的分位数),再经过代数运算即可得到总体方差的置信区间。
注意,由于Z和T分布关于y轴对称,因此它们左尾概率为a/2的分位数等于右尾概率为α/2的分位数的相反数,即P(Z≥z(a/2))=P(Z≤-z(a/2))。卡方分布没有这样的对称性,因此求左尾概率等于α/2的分位数相当于求右尾概率为1-α的分位数。
根据下列代数运算过程,将枢轴统计量的区间转变为总体方差的置信区间:
总体方差的区间估计
根据上面的讨论,得到总体方差置信区间的构造方法:
02
—
蒙特卡洛模拟
正态总体方差的区间估计
假设总体服从均值为0,方差为2的正态分布,通过随机数产生正态随机样本,根据样本数据求总体方差的95%的置信区间。
1、生成随机数(随机抽样过程)
在Excel中使用NORM.INV(RAND(),0,SQRT(2))生成30个随机数,重复试验100次。
2、蒙特卡洛模拟
根据置信水平α=0.05,样本容量n=30,自由度v=29,按上述规则构造总体方差的95%的置信区间,检查成功捕获总体方差实际值的置信区间的比例。