引言
本文介绍了试验数据描述性统计分析中常用的均值、极差、方差、标准差、变异系数、偏度和峰度计算,并给出了MATLAB计算的函数。
文章目录
设 n n n个观测值构成行向量 x \mathbf{x} x
x = [ x 1 , x 2 , ⋯ , x n ] \mathbf{x}=[x_1, x_2, \cdots, x_n] x=[x1,x2,⋯,xn]
其中 n n n是样本容量。以下介绍均是样本的数字特征。和样本对应的数字特征是总体特征。
1 均值
1.1 样本均值
样本的样本均值即求数据的算术平均值:
x ‾ = 1 n ( x 1 + x 2 + ⋯ + x n ) = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n} (x_1+x_2+\cdots +x_n)=\frac{1}{n}\sum_{i=1}^nx_i x=n1(x1+x2+⋯+xn)=n1i=1∑nxi
在分组样本场合,样本均值的近似公式为:
x ‾ = 1 k ( x 1 f 1 + x 2 f 2 + ⋯ + x k f k ) = 1 k ∑ i = 1 k x i f i \overline{x}=\frac{1}{k}(x_1f_1+x_2f_2+\cdots+x_kf_k)=\frac{1}{k}\sum_{i=1}^kx_if_i x=k1(x1f1+x2f2+⋯+xkfk)=k1i=1∑kxifi
其中, k k k是组数, x i x_i xi是第 i i i组的组中数, f i f_i fi是第 i i i组的频数。
均值表现了数据的集中位置。
1.2 总体均值
总体均值即为总体数据的数学期望:
μ = E ( x ) \mu=E(x) μ=E(x)
1.3 MATLAB编程-均值
计算均值使用的是函数mean
xmean=mean(x);%均值
2 变异度
2.1 样本极差、方差、标准差、变异系数
刻画数据变异度的量有样本极差 R R R,她等于样本中最大值减去最小值,即 R = x m a x − x m i n R=x_{max}-x_{min} R=xmax−xmin
它可以刻画数据散布范围大小,但不能刻画数据在这个范围内散布的集中或离散程度。刻画数据集中或离散程度的程度应该用其中心位置 x ‾ \overline{x} x为度量标准。任一数据 x i x_i xi和样本均值 x ‾ \overline{x} x的差称作 x i x_i xi的偏差。可以计算出,样本中所有数据的偏差和是0:
∑ i = 1 n ( x i − x ‾ ) = ∑ i = 1 n x i − n x ‾ = 0 \sum_{i=1}^{n}(x_i-\overline{x})=\sum_{i=1}^nx_i-n\overline{x}=0 i=1∑n(xi−x)=i=1∑nxi−nx=0
因而,刻画所有数据的变异度常用样本方差 s 2 s^2 s2或样本标准差 s s s,可以表示为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 s2=n−11i=1∑n(xi−x)2
s = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2} s=s2=n−11i=1∑n(xi−x)2
方差的量纲和数据的量纲不一致,它是数据量纲的平方,而标准差的量纲和数据量纲一致。比较两个样本的变异度,由于单位不同或平均数不同,不能单纯地用标准差来比较,而是用一个相对的百分数变异数来比较,这就是变异系数,表示为:
C V = 100 × s x ‾ CV=100\times\frac{s}{\overline{x}} CV=100×xs
用它可以对同一样本中的不同指标或不同样本中的同一指标进行比较,据 C V CV CV的大小可以对指标的变异程度排序。
2.2 总体方差、标准差、变异系数
总体方差计算公式为:
σ 2 = v a r ( x ) \sigma^2=var(x) σ2=var(x)
总体标准差计算公式为:
σ = v a r ( x ) \sigma=\sqrt{var(x)} σ=var(x)
总体变异系数计算公式为:
γ = σ μ \gamma=\frac{\sigma}{\mu} γ=μσ
2.3 MATLAB编程-极差、方差、标准差、变异系数
计算极差用的是函数range
xrange=range(x);%极差
计算方差用的是函数var
xvar=var(x);%方差
计算标准差用的是函数std
xstd=std(x);%标准差
计算变异系数利用定义计算:
xcv=100*std(x)./mean(x);%变异系数
3 偏度
3.1 样本偏度
偏度用来刻画数据的偏态,对于样本数据,其样本偏度其计算公式(总体偏度的无偏估计)为:
g 1 = n ( n − 1 ) ( n − 2 ) s 3 ∑ i = 1 n ( x i − x ‾ ) 3 = n 2 u 3 ( n − 1 ) ( n − 2 ) s 3 g_1=\frac{n}{(n-1)(n-2)s^3}\sum_{i=1}^n(x_i-\overline{x})^3=\frac{n^2u_3}{(n-1)(n-2)s^3} g1=(n−1)(n−2)s3ni=1∑n(xi−x)3=(n−1)(n−2)s3n2u3
其中,s是标准差, u 3 = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 u_3=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3 u3=n1∑i=1n(xi−x)3是样本的3阶中心矩。偏度是刻画数据对称性的指标:
-
数据关于均值对称偏度 g 1 = 0 g_1=0 g1=0
-
数据关于均值不对称,右侧数据更分散(右尾长),偏度 g 1 > 0 g_1>0 g1>0
-
数据关于均值不对称,左侧数据更分散(左尾长),偏度 g 1 < 0 g_1<0 g1<0
3.2 总体偏度
总体偏度的计算公式是:
G 1 = μ 3 σ 3 G_1=\frac{\mu_3}{\sigma^3} G1=σ3μ3
式中 μ 3 = E ( X − μ ) 3 \mu_3=E(X-\mu)^3 μ3=E(X−μ)3是总体3阶中心距。
3.3 MATLAB编程-偏度
计算偏度用的是函数skewness
,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。
xske=skewness(x,0);%偏度
4 峰度
4.1 样本峰度
峰度用来刻画数据的尾重程度,对于样本数据,其样本峰度计算公式(总体峰度的无偏估计)为:
g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 ∑ i = 1 n ( x i − x ‾ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) = n 2 ( n + 1 ) u 4 ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) \begin{aligned} g_2&=\frac{n(n+1)}{(n-1)(n-2)(n-3)s^4}\sum_{i=1}^n(x_i-\overline{x})^4-3\frac{(n-1)^2}{(n-2)(n-3)}\\&=\frac{n^2(n+1)u_4}{(n-1)(n-2)(n-3)s^4}-3\frac{(n-1)^2}{(n-2)(n-3)} \end{aligned} g2=(n−1)(n−2)(n−3)s4n(n+1)i=1∑n(xi−x)4−3(n−2)(n−3)(n−1)2=(n−1)(n−2)(n−3)s4n2(n+1)u4−3(n−2)(n−3)(n−1)2
其中,s是标准差, u 4 = 1 n ∑ i = 1 n ( x i − x ‾ ) 4 u_4=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4 u4=n1∑i=1n(xi−x)4是样本的4阶中心矩。峰度是刻画数据分散性的指标:
-
数据总体分布式正态分布时, g 2 = 0 g_2=0 g2=0
-
数据分布较正态分布的尾部更加分散,两端极端数据更多(粗尾),峰度 g 2 > 0 g_2>0 g2>0
-
数据分布较正态分布的尾部更加集中,两端极端数据更少(细尾),峰度 g 2 < 0 g_2<0 g2<0
4.2 总体峰度
总体峰度的计算公式是:
G 2 = μ 4 σ 4 − 3 G_2=\frac{\mu_4}{\sigma^4}-3 G2=σ4μ4−3
式中 μ 4 = E ( X − μ ) 4 \mu_4=E(X-\mu)^4 μ4=E(X−μ)4是总体4阶中心距。
4.1 MATLAB编程-峰度
计算峰度用的是函数kurtosis
,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。
xkur=kurtosis(x,0);%峰度
5.其他说明
根据统计学的结果,样本的数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,当观测数量足够大时:
μ ≈ x ‾ σ 2 ≈ s 2 σ ≈ s γ ≈ C V G 1 ≈ g 1 G 2 ≈ g 2 \begin{aligned} &\mu\approx \overline{x}\\ &\sigma^2\approx s^2\\ &\sigma\approx s\\ &\gamma\approx CV\\ &G_1\approx g_1\\ &G_2\approx g_2 \end{aligned} μ≈xσ2≈s2σ≈sγ≈CVG1≈g1G2≈g2
这里,特别要强调以下情况,当观测数据 x 1 , x 2 , ⋯ , x n x_1,x_2,\cdots,x_n x1,x2,⋯,xn是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据 x i x_i xi是等可能的,即为 1 n \frac{1}{n} n1,总体分布为离散均匀分布:
P ( X = x i ) = 1 n , i = 1 , 2 , ⋯ , n P(X=x_i)=\frac{1}{n},\quad i=1,2,\cdots,n P(X=xi)=n1,i=1,2,⋯,n
参考资料
[1]WikiPedia-偏度
[2]WikiPedia-峰度
[3]Joanes D N, Gill C A. Comparing measures of sample skewness and kurtosis[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1998, 47(1): 183-189.
[4]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14