第四章.数据的概括性度量

最新推荐文章于 2024-07-08 16:41:21 发布

哆啦KKK梦

最新推荐文章于 2024-07-08 16:41:21 发布

阅读量290

点赞数

分类专栏：统计学文章标签：人工智能大数据

本文链接：https://blog.csdn.net/m0_64467131/article/details/131492431

版权

统计学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据的概括性度量

数据分布的特征可以从三个方面进行测度和描述：一是分布的集中趋势，反映各数据向其中心值靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布的偏态和峰态

注意：低层次数据的特征适用于高层次数据，但高层次数据的特征不适用于低层次数据

+++

1.集中趋势的度量

集中趋势（central tendency）是指一组数据向某一中心值靠拢的程度，它反映了一组数据中心点的位置所在。

1.1分类数据

众数：一组数据中出现次数最多的变量值，用 $M_0$ 表示

众数（mode）主要用于测度分类数据的集中趋势，也可作为顺序数据以及数值型数据集中趋势的测度值。

对于数值型数据来说，

数值型分组数据的众数

$M_0 = B + \frac {\Delta_1}{\Delta1+\Delta_2}C$

其中， $B$ 为众数组(频数最大的组)的组下限， $C$ 为组距， $\Delta_1$ 为众数组频数 $-$ 前一组频数， $\Delta_2$ 为众数组频数 $-$ 后一组频数。

数值型未分组数据的众数

出现次数最多的数据值就是众数。

1.2顺序数据

中位数：一组数据排序后处于中间位置上的变量值，用 $M_e$ 表示

中位数（median）将全部数据分成两部分，每部分包含 $50\%$ 的数据，一部分数据比中位数大，一部分数据比中位数小。中位数主要用于测度顺序数据的集中程度，当然也适用于测度数值型数据的集中趋势，但不适用于分类数据。

对于数值型数据来说，

数据一定要先排序！

数值型分组数据的中位数

$M_e = B + \frac {\frac{n}{2}-S_{m-1}}{f_m}C$

其中， $B$ 为中位数组（数据排序后位于中间位置 $n /2$ 的数所在的组，可以通过累积频数来判断所在位置）的组下限， $C$ 为组距， $n$ 为样本总数， $f_m$ 为中位数组的频数， $S_{m-1}$ 为中位数组前一组的累积频数。

数值型未分组数据的中位数

$M_e = \begin{cases} x_{(\frac {n+1}{2})} \quad n为奇数 \\ \frac {1}{2}(x_{(\frac {n}{2})} + x_{(\frac {n}{2}+1)}) \quad n为偶数 \end{cases}$

四分位数：一组数据排序后处于 $25\%$ 和 $75\%$ 位置上的值

$Q_L位置 = \frac{n}{4} \\ Q_U位置 = \frac{3n}{4}$

1.3数值型数据

平均数（mean）

简单平均数：对于未分组数据的平均数计算，用 $\bar{x}$ 表示

设一组样本数据为 $x_1,x_2,\cdots,x_n$ ,样本量为 $n$ （样本数据的个数），则简单样本平均数用 $\bar{x}$ 表示
$\bar{x} = \frac {x_1+x_2+\cdots+x_n}{n} = \frac {\sum_{i=1}^{n}x_i}{n}$

加权平均数：对于分组数据的平均数计算，用 $\bar{x}$ 表示

设原始数据分成 $k$ 组，各组的组中值分别为 $M_1,M_2,\cdots,M_k$ 表示（ $组中值=\frac {组上限+组下限}{2}$ ），各组的频数分别用 $f_1,f_2,\cdots,f_k$ 表示，则样本加权平均数的计算公式为：
$\bar{x} = \frac{\sum_{i=1}^{k}M_if_i}{\sum{f_i}}$

几何平均数： $n$ 个变量乘积的 $n$ 次方根，用 $G$ 表示

主要适用于计算平均比率，例如平均指数、平均增长率等
$\sqrt[n]{\prod_{i=1}^{n}x_i}$

1.4众数、中位数、平均数的比较

2.离散程度的度量

离散程度反映的是各变量值远离中心值的程度。数据的离散程度越大，集中趋势的测度值对该组数据的代表性久越差；离散程度越小，其代表性就越好。描述数据离散程度的测度值主要有异众比率，四分位差，方差，标准差，极差，平均差，变异系数等。

2.1分类数据

异众比率：指非众数组的频数占总频数的比例，用 $V_r$ 表示

异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性就越好。
$V_r = (1-\frac {f_m}{\sum{f_i}})×100\%$
其中 $\sum{f_i}$ 为变量值的总频数， $f_m$ 为众数组的频数。

2.2顺序数据

四分位差：上四分位与下四分位数之差，用 $Q_d$ 表示

四分位差反映了中间 $50\%$ 的数据的离散程度。四分位差越小，说明中间的数据越集中；四分位差越大，说明中间的数据越分散。四分位差不受极差的影响。
$Q_d = Q_U-Q_L$

2.3数值型数据

测度数值型数据离散程度的主要方法有极差、平均差、方差、标准差和变异系数。

极差（range）：一组数据最大值与最小值之差，用 $R$ 表示

对于未分组数值型数据，极差的公式为：
$R = max(x_i)-min(x_i)$

其中， $max(x_i)和min(x_i)$ 分别表示数据中的最大值和最小值

对于分组数值型数据，极差的公式为：
$R=Umax(x_i)-Umin(x_i)$
其中 $Umax(x_i)和Umin(x_i)$ 分别表示最大组上限和最大组下限

平均差：各变量值与其平均数离差绝对值的平均数，用 $M_d$ 表示

平均差（mean deviation）以平均数为中心，反映每个数据与平均数的平均差异程度，它能反映一组数据的离散程度。平均差越大，说明数据的离散程度越大；反之，则说明数据的离散程度越小。

对于未分组数值型数据，平均差的公式为：
$M_d = \frac {\sum_{i=1}^{n}|x_i-\bar{x}|}{n},\bar{x}为平均数$
对于分组数值型数据，平均差的公式为：
$M_d = \frac {\sum_{i=1}^{k}|M_i-\bar{x}|f_i}{n},M_i为组中值,f_i为组频数$

方差和标准差
- 方差：各变量值与其平均数离差平方的平均数
- 标准差：方差的平方根

这里采用的都是对于样本的样本方差和样本标准差。

自由度（degree of freedom）：样本数据个数-1

对于未分组数值型数据，方差和标准差的公式为：
$s^2 = \frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{n}{(x_i-\bar{x})^2}}{n-1}}$
对于分组数值型数据，方差和标准差的公式为：
$s^2 = \frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1} \\ s = \sqrt[]{\frac {\sum_{i=1}^{k} {(M_i-\bar{x})^2f_i}}{n-1}} \\ 其中，k为组数，M_i为组中值，f_i为组频数$

标准分数（相对位置的度量）

有了平均数和标准差之后，可以计算一组数据中各个数据的标准分数，以测度每个数据在该组数据中的相对位置，并可以用它来判断一组数据是否有离群数据。变量值与其平均数的离差除以标准差后的值称为标准分数，用 $z$ 表示。

设第 $i$ 个数据的标准分数为 $z_i$ ，那么标准分数的公式为：
$z_i = \frac {x_i-\bar{x}}{s},其中s为标准差$
标准分数给出了一组数据中各数据的相对位置。比如，如果某个数据的标准分数为 $- 1.5$ ，就知道该数据比平均数低 $1.5$ 个标准差。

对于相对位置的度量，除了标准分数外，还有经验法则和切比雪夫不等式。

变异系数：一组数据的标准差与其相应的平均数之比，用 $v_s$ 表示

其计算公式为：
$v_s = \frac {s}{\bar{x}}$
变异系数是测度数据离散程度的统计量，主要用于比较不同样本数据的离散程度。变异系数大，说明数据的离散程度也大；变异系数小，说明数据的离散程度也小。

3.偏态与峰态的度量

偏态和峰态就是对数据分布形状的测度，主要判断数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。

偏态（skewness）

偏态是对数据分布对称性的测度，测度偏态的统计量是偏态系数（coefficient of skewness），记作 $S K$ .

如果偏态系数等于0，说明数据的分布是对称的；如果偏态系数明显不等于0，说明数据分布是非对称的。当SK接近0，认为偏斜程度很小；当SK在 $0.5 1 或者 - 0.5 - 1$ ,认为偏斜程度中等；如果SK大于1或者小于-1，认为偏斜程度很大。其中SK大于0说明右偏。SK小于0说明左偏（往哪边偏就是哪边有拖尾）