【MATLAB数据分析】02数据的中位数和分位数

小林up

已于 2022-06-02 22:25:36 修改

阅读量6.8k

点赞数 7

分类专栏： # MATLAB数据分析文章标签： matlab 数据分析中位数分位数

于 2022-06-02 22:24:29 首次发布

本文链接：https://blog.csdn.net/subtitle_/article/details/125107748

版权

MATLAB数据分析专栏收录该内容

2 篇文章 3 订阅

订阅专栏

引言

在【MATLAB数据分析】01数据的均值、变异度、偏度和峰度一文中我们介绍了均值、方差、标准差等数字特征，它们都是总体相应特征值的一种矩估计，更适合来自正态分布的数据的分析。但若总体的分布未知，或者数据严重偏态，有若干异常数据（极端值），则上述的分析方法不太合适，这时候可以利用本文介绍的中位数、分位数、三均值等数据特征计算。本文还给出了MATLAB计算的函数。、

文章目录

引言
1 中位数
- 1.1 样本均值
- 1.2 MATLAB编程-中位数
2 分位数
- 2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点
- 2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

设 $n$ 个观测值构成行向量 $\mathbf{x}$

$\mathbf{x}=[x_1, x_2, \cdots, x_n]$

其中 $n$ 是样本容量。它是来自某总体的样本，数值从小到大重新排列为：

$x_{(1)},x_{(2)},\cdots,x_{(n)}$

这就是次序统计量，显然，最小次序统计量 $x_{(1)}$ 与最大次序统计量 $x_{(n)}$ 分别为：

$x_{(1)}=\underset{1\le i\le n}{min}x_{(i)},\quad x_{(n)}=\underset{1\le i\le n}{max}x_{(i)}$

1 中位数

1.1 样本均值

中位数的计算公式为：

$M=\left\{\begin{matrix} x_{(\frac{n+1}{2})},\quad\quad\quad\quad &n为奇数 \\ \frac{1}{2}(x_{(\frac{n}{2})}+x_{(\frac{n+1}{2})}),&n为偶数 \end{matrix}\right.$

中位数是描述数据中心位置的数字特征，大体上比中位数大或小的数据个数为整个数据个数的一半。对于对称分布的数据，均值与中位数较接近，对于偏态分布的数据，均值与中位数不同。中位数的另一显著特点是不受个别极端数据变化的影响，具有较好的稳定性。

1.2 MATLAB编程-中位数

计算中位数使用的是函数median

xmed=median(x);

也可以使用函数prctile,计算 $1 / 2$ 分位数，第二个参数为50。

x50=prctile(x,50);

代码中x50和xmed都表示中位数，只是使用函数不同，书写不同以示区分。

2 分位数

2.1 上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

对 $0\le p<1$ 和容量为 $n$ 的样本 $x_1,x_2,\cdots,x_n$ ，它的 $p$ 分位数（又叫100 $p$ 百分数）为：

$M_p=\left\{\begin{matrix} x_{[np+1]},\quad\quad\quad\quad\quad &\quad np不是整数 \\ \frac{1}{2}(x_{(np)}+x_{(np+1)}),&np是整数 \end{matrix}\right.$

其中 $[n p]$ 表示 $n p$ 的整数部分，当 $p = 1$ 时，定义 $M_1=x_{(n)}$ 。大体上整个样本的 $100 p$ 的观测值不超过 $p$ 分位数。0.5分位数 $M_{0.5}$ （第50百分位数）就是中位数。实际应用中，0.75分位数和0.25分位数比较重要，分别记作上、下四分位数，记作：

$Q_3=M_{0.75},\quad Q_1=M_{0.25}$

上、下四分位数之差称为四分位极差（或半极差），表示为：

$R_1=Q_3-Q_1$

它也是度量样本分散性的重要数字特征，尤其对于具有异常值的数据，它作为分散性的度量具有稳健性，因此它在稳健型数据分析中具有重要作用。

当样本 $x_1,x_2,\cdots,x_n$ 是来自正态总体 $N(\mu,\sigma^2)$ 时，其总体上、下四分位数为：

$\xi_{0.75}=\mu+0.6745\sigma\\ \xi_{0.25}=\mu-0.6745\sigma$

故其总体四分位极差为：

$r_1=\xi_{0.75}-\xi_{0.25}=1.349\sigma$

也即：

$\sigma=\frac{r_1}{1.349}$

当样本存在异常值时，标准差 $s$ 缺乏稳健性。根据上面的讨论，可以得到总体标准差 $s$ 的一个具有稳健性的估计：

$\hat{\sigma} =\frac{R_1}{1.349}$

它称为四分位标准差。对于任意观测数据 $x_1,x_2,\cdots,x_n$ ， $\hat{\sigma}$ 可以作为数据分散性的稳健度量。

我们知道，均值 $\overline{x}$ 和中位数 $M$ 都是描述数据集中位置的数字特征。计算 $\overline{x}$ 时，用了样本 $x_1,x_2,\cdots,x_n$ 的全部信息，而 $M$ 只是用了数据分布中的部分信息，因此在正常情况下，用 $\overline{x}$ 比用 $M$ 描述数据的集中位置更优，但当数据存在异常值， $\overline{x}$ 缺乏稳健性，这时可用三均值 $\hat{M}$ 作为数据集中位置的数字特征。三均值 $\hat{M}$ 的计算公式为：

$\hat{M}=\frac{1}{4}Q_1+\frac{1}{2}M+\frac{1}{4}Q_3$

在探索性数据分析中，有一种判断数据为异常值的简便方法。称 $Q_1-1.5R_1$ 和 $Q_3+1.5R_1$ 为数据的下、上截断点。大于上截断点的数据为特大值，小于下截断点的数据为特小值，两者都为异常值。

当总体为正态分布 $N(\mu,\sigma^2)$ 时，理论上、下截断点分别为：

$\xi_{0.75}+1.5r_1=\mu+2.698\sigma\\ \xi_{0.25}-1.5r_1=\mu-2.698\sigma$

数据落在上、下截断点之外的概率为0.00698，即对于容量较大的样本，其异常值的概率约为0.00698，由模拟研究，对容量为 $n$ 的正态样本，异常值的平均比率近似为0.00698+ $\frac{0.4}{n}$ 。

2.2 MATLAB编程-上四分位数、下四分位数、四分位极差、三均值、上截断点、下截断点

计算上四分位数和下四分位数用的是函数prctile,函数的第二个参数分别为75和25。

x75=prctile(x,75);%上四分位数
x25=prctile(x,25);%下四分位数

计算四分位极差根据定义来，利用上面得到的上四分位数和下四分位数：

xr1=x75-x25;%四分位极差

计算三均值根据定义计算：

xhM=0.25*x25+0.5*x50+0.25*x75;%三均值

计算上截断点和下截断点根据定义计算:

xsj=x75+1.5*xr1;%上截断点
xij=x25-1.5*xr1;%下截断点

最后用一张图说明所有：
在这里插入图片描述

参考资料
[1]王岩，隋思涟. 试验设计与MATLA数据分析[M]. 第一版. 北京:清华大学出版社,2012:10-14

小林up

关注

7
点赞
踩
37

收藏

觉得还不错? 一键收藏
0
评论
【MATLAB数据分析】02数据的中位数和分位数

在[【MATLAB数据分析】01数据的均值、变异度、偏度和峰度](https://blog.csdn.net/subtitle_/article/details/125090212)一文中我们介绍了均值、方差、标准差等数字特征，它们都是总体相应特征值的一种矩估计，更适合来自正态分布的数据的分析。但若总体的分布未知，或者数据严重偏态，有若干异常数据（极端值），则上述的分析方法不太合适，这时候可以利用本文介绍的**中位数**、**分位数**、**三均值**等数据特征计算。本文还给出了MATLAB......
复制链接

扫一扫