任何过程的控制与分析都难以做到对样本的总体数据进行收集和分析,都是通过特定的抽样计划进行样本采集、分析,然后通过样本数据的结论对样本的总体进行统计推论,从而对总体做出相应的决策。在样本对总体的统计推论过程当中,中心极限定理就是理论基础。
我们通过下面这个小练习来了解该定理吧,我们用MiniTAB生成9列数据,每列100个,要求:
9列数据的数据分布是相同的分布;
9列分布的特定统计量均相同(比如决定正态分布的统计量为均值和方差,二项分布为固定试验次数和成功的概率)
步骤一:生成数据。MiniTAB命令:计算>>随机数据>>正态分布
步骤二:计算每一行的平均值,并存在C10列。MiniTAB命令:计算>>行统计量
步骤三:将A ~ I这9列数据全部堆叠在C11列。MiniTAB命令:数据>>堆叠>>列
这里我们把Stacked的数据当作样本的总体中的一部分,来源于过程当中9天的生产数据,Row_Mean相当于每次抽9个样本的平均值。这样这组数据是不是类似于SPC的取样数据?便于理解了吧。
步骤四:正态性检验。
分布A~I都是服从正态分布的;再比较数据列Row_Mean和Stacked,正态性检验的P-Value也都是大于0.05,服从于正态分布。
步骤五:列出样本均值的数据列Row_Mean和总体Stacked间的描述性统计的信息。MiniTAB命令:统计>>基本统计量>>显示描述性统计,在统计量里选择。
统计量符号 | Row_Mean | Stacked |
样本量 | n | |
平均值 | xbar | μ |
方差 | s2 | σ2 |
从这里我们可以看到样本均值分布(Row_Mean)和总体分布(Stacked)间的平均值与方差存在关系:
xbar ≈ μ
s2≈ σ2 / n (亦作s ≈ σ / sqrt(n))
样本的均值分布近似服从于正态分布N ~ (μ, σ2 / n)。
这个也就是我们学习六西格玛时所说的中心极限定理。其实无论总体分布是何种分布,样本的均值分布在n足够大的时候,均值分布都有上述特点(可以将步骤一里设的分布改成其他分布来验证)。
中心极限定理的定义:
任意相同分布且相互独立的随机变量X1,X2,…,Xn…,均值和方差均为μ和σ2;则随机变量Xbar = ∑(Xk)/n;k=1…n,近似服从正态分布N~(μ ,σ2/n)。
另外,有兴趣深入研究的同学可以自行搜索大数定律和中心极限定理,这两者是统计推论的理论基础。
最后,留一个问题给大家思考,假如过程的质量特性分布数据不服从正态分布,比方说均匀分布。可以采用xbar – R控制图来控制该过程?
- Jeff整理于2020/01/11
[完]
转载请注明出处,谢谢!