【MATLAB数据分析】01数据的均值、变异度、偏度和峰度

引言

本文介绍了试验数据描述性统计分析中常用的均值、极差、方差、标准差、变异系数、偏度和峰度计算,并给出了MATLAB计算的函数。



n n n个观测值构成行向量 x \mathbf{x} x

x = [ x 1 , x 2 , ⋯   , x n ] \mathbf{x}=[x_1, x_2, \cdots, x_n] x=[x1,x2,,xn]

其中 n n n是样本容量。以下介绍均是样本的数字特征。和样本对应的数字特征是总体特征。

1 均值

1.1 样本均值

样本的样本均值即求数据的算术平均值:

x ‾ = 1 n ( x 1 + x 2 + ⋯ + x n ) = 1 n ∑ i = 1 n x i \overline{x}=\frac{1}{n} (x_1+x_2+\cdots +x_n)=\frac{1}{n}\sum_{i=1}^nx_i x=n1(x1+x2++xn)=n1i=1nxi

在分组样本场合,样本均值的近似公式为:

x ‾ = 1 k ( x 1 f 1 + x 2 f 2 + ⋯ + x k f k ) = 1 k ∑ i = 1 k x i f i \overline{x}=\frac{1}{k}(x_1f_1+x_2f_2+\cdots+x_kf_k)=\frac{1}{k}\sum_{i=1}^kx_if_i x=k1(x1f1+x2f2++xkfk)=k1i=1kxifi

其中, k k k是组数, x i x_i xi是第 i i i组的组中数, f i f_i fi是第 i i i组的频数。

均值表现了数据的集中位置。

1.2 总体均值

总体均值即为总体数据的数学期望:

μ = E ( x ) \mu=E(x) μ=E(x)

1.3 MATLAB编程-均值

计算均值使用的是函数mean

xmean=mean(x);%均值

2 变异度

2.1 样本极差、方差、标准差、变异系数

刻画数据变异度的量有样本极差 R R R,她等于样本中最大值减去最小值,即 R = x m a x − x m i n R=x_{max}-x_{min} R=xmaxxmin

它可以刻画数据散布范围大小,但不能刻画数据在这个范围内散布的集中或离散程度。刻画数据集中或离散程度的程度应该用其中心位置 x ‾ \overline{x} x为度量标准。任一数据 x i x_i xi和样本均值 x ‾ \overline{x} x的差称作 x i x_i xi的偏差。可以计算出,样本中所有数据的偏差和是0:

∑ i = 1 n ( x i − x ‾ ) = ∑ i = 1 n x i − n x ‾ = 0 \sum_{i=1}^{n}(x_i-\overline{x})=\sum_{i=1}^nx_i-n\overline{x}=0 i=1n(xix)=i=1nxinx=0

因而,刻画所有数据的变异度常用样本方差 s 2 s^2 s2样本标准差 s s s,可以表示为:

s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2 s2=n11i=1n(xix)2

s = s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ‾ ) 2 s=\sqrt{s^2}=\sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\overline{x})^2} s=s2 =n11i=1n(xix)2

方差的量纲和数据的量纲不一致,它是数据量纲的平方,而标准差的量纲和数据量纲一致。比较两个样本的变异度,由于单位不同或平均数不同,不能单纯地用标准差来比较,而是用一个相对的百分数变异数来比较,这就是变异系数,表示为:

C V = 100 × s x ‾ CV=100\times\frac{s}{\overline{x}} CV=100×xs

用它可以对同一样本中的不同指标或不同样本中的同一指标进行比较,据 C V CV CV的大小可以对指标的变异程度排序。

2.2 总体方差、标准差、变异系数

总体方差计算公式为:

σ 2 = v a r ( x ) \sigma^2=var(x) σ2=var(x)

总体标准差计算公式为:

σ = v a r ( x ) \sigma=\sqrt{var(x)} σ=var(x)

总体变异系数计算公式为:

γ = σ μ \gamma=\frac{\sigma}{\mu} γ=μσ

2.3 MATLAB编程-极差、方差、标准差、变异系数

计算极差用的是函数range

xrange=range(x);%极差

计算方差用的是函数var

xvar=var(x);%方差

计算标准差用的是函数std

xstd=std(x);%标准差

计算变异系数利用定义计算:

xcv=100*std(x)./mean(x);%变异系数

3 偏度

3.1 样本偏度

偏度用来刻画数据的偏态,对于样本数据,其样本偏度其计算公式(总体偏度的无偏估计)为:

g 1 = n ( n − 1 ) ( n − 2 ) s 3 ∑ i = 1 n ( x i − x ‾ ) 3 = n 2 u 3 ( n − 1 ) ( n − 2 ) s 3 g_1=\frac{n}{(n-1)(n-2)s^3}\sum_{i=1}^n(x_i-\overline{x})^3=\frac{n^2u_3}{(n-1)(n-2)s^3} g1=(n1)(n2)s3ni=1n(xix)3=(n1)(n2)s3n2u3

其中,s是标准差, u 3 = 1 n ∑ i = 1 n ( x i − x ‾ ) 3 u_3=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^3 u3=n1i=1n(xix)3是样本的3阶中心矩。偏度是刻画数据对称性的指标:

  • 数据关于均值对称偏度 g 1 = 0 g_1=0 g1=0

  • 数据关于均值不对称,右侧数据更分散(右尾长),偏度 g 1 > 0 g_1>0 g1>0

  • 数据关于均值不对称,左侧数据更分散(左尾长),偏度 g 1 < 0 g_1<0 g1<0

在这里插入图片描述

3.2 总体偏度

总体偏度的计算公式是:

G 1 = μ 3 σ 3 G_1=\frac{\mu_3}{\sigma^3} G1=σ3μ3

式中 μ 3 = E ( X − μ ) 3 \mu_3=E(X-\mu)^3 μ3=E(Xμ)3是总体3阶中心距。

3.3 MATLAB编程-偏度

计算偏度用的是函数skewness,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。

xske=skewness(x,0);%偏度

4 峰度

4.1 样本峰度

峰度用来刻画数据的尾重程度,对于样本数据,其样本峰度计算公式(总体峰度的无偏估计)为:

g 2 = n ( n + 1 ) ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 ∑ i = 1 n ( x i − x ‾ ) 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) = n 2 ( n + 1 ) u 4 ( n − 1 ) ( n − 2 ) ( n − 3 ) s 4 − 3 ( n − 1 ) 2 ( n − 2 ) ( n − 3 ) \begin{aligned} g_2&=\frac{n(n+1)}{(n-1)(n-2)(n-3)s^4}\sum_{i=1}^n(x_i-\overline{x})^4-3\frac{(n-1)^2}{(n-2)(n-3)}\\&=\frac{n^2(n+1)u_4}{(n-1)(n-2)(n-3)s^4}-3\frac{(n-1)^2}{(n-2)(n-3)} \end{aligned} g2=(n1)(n2)(n3)s4n(n+1)i=1n(xix)43(n2)(n3)(n1)2=(n1)(n2)(n3)s4n2(n+1)u43(n2)(n3)(n1)2

其中,s是标准差, u 4 = 1 n ∑ i = 1 n ( x i − x ‾ ) 4 u_4=\frac{1}{n}\sum_{i=1}^n(x_i-\overline{x})^4 u4=n1i=1n(xix)4是样本的4阶中心矩。峰度是刻画数据分散性的指标:

  • 数据总体分布式正态分布时, g 2 = 0 g_2=0 g2=0

  • 数据分布较正态分布的尾部更加分散,两端极端数据更多(粗尾),偏度 g 2 > 0 g_2>0 g2>0

  • 数据分布较正态分布的尾部更加集中,两端极端数据更少(细尾),偏度 g 2 < 0 g_2<0 g2<0
    在这里插入图片描述

4.2 总体峰度

总体峰度的计算公式是:

G 2 = μ 4 σ 4 − 3 G_2=\frac{\mu_4}{\sigma^4}-3 G2=σ4μ43

式中 μ 4 = E ( X − μ ) 4 \mu_4=E(X-\mu)^4 μ4=E(Xμ)4是总体4阶中心距。

4.1 MATLAB编程-峰度

计算峰度用的是函数kurtosis,函数的第二个参数可以查官方文档,为0时是总体的无偏估计,为1是有偏估计,这里取无偏估计,参数为0。

xkur=kurtosis(x,0);%峰度

5.其他说明

根据统计学的结果,样本的数字特征是相应的总体数字特征的矩估计。当总体数字特征存在时,当观测数量足够大时:

μ ≈ x ‾ σ 2 ≈ s 2 σ ≈ s γ ≈ C V G 1 ≈ g 1 G 2 ≈ g 2 \begin{aligned} &\mu\approx \overline{x}\\ &\sigma^2\approx s^2\\ &\sigma\approx s\\ &\gamma\approx CV\\ &G_1\approx g_1\\ &G_2\approx g_2 \end{aligned} μxσ2s2σsγCVG1g1G2g2

这里,特别要强调以下情况,当观测数据 x 1 , x 2 , ⋯   , x n x_1,x_2,\cdots,x_n x1,x2,,xn是所要研究对象的全体时,数据的分布即总体分布,我们认为取得每一个观测数据 x i x_i xi是等可能的,即为 1 n \frac{1}{n} n1,总体分布为离散均匀分布:

P ( X = x i ) = 1 n , i = 1 , 2 , ⋯   , n P(X=x_i)=\frac{1}{n},\quad i=1,2,\cdots,n P(X=xi)=n1,i=1,2,,n

参考资料
[1]WikiPedia-偏度
[2]WikiPedia-峰度
[3]Joanes D N, Gill C A. Comparing measures of sample skewness and kurtosis[J]. Journal of the Royal Statistical Society: Series D (The Statistician), 1998, 47(1): 183-189.
[4]王岩,隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14

  • 17
    点赞
  • 107
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
要在MATLAB中绘制标准差图,可以使用errorbar函数。errorbar函数可以在坐标轴上绘制带有误差线的数据点。以下是一个示例代码: ```matlab x = 1:5; % x轴数据 y = [5 7 3 2 6]; % y轴数据 std_dev = [0.8 1.2 0.5 0.6 0.9]; % 标准差数据 figure; % 创建新的图形窗口 errorbar(x, y, std_dev); % 绘制误差线图 xlabel('x'); % 设置x轴标签 ylabel('y'); % 设置y轴标签 title('Standard Deviation Plot'); % 设置图标题 ``` 这段代码将绘制一个包含误差线的标准差图。x轴是从1到5的数据点,y轴是相应的y值,std_dev是对应的标准差数据。函数errorbar会根据给定的标准差数据绘制误差线。 希望这个回答对您有帮助!<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Matlab随笔之画图函数总结](https://blog.csdn.net/weixin_30275415/article/details/99920692)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [MATLAB学习(五):进阶绘图](https://blog.csdn.net/weixin_48087474/article/details/113250806)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值