二：统计基础：描述统计

最新推荐文章于 2024-07-27 10:09:41 发布

cy^2

最新推荐文章于 2024-07-27 10:09:41 发布

阅读量1.5k

点赞数

分类专栏：数据科学的统计基础文章标签：描述性分析

本文链接：https://blog.csdn.net/qq_34120015/article/details/124368202

版权

数据科学的统计基础专栏收录该内容

6 篇文章

订阅专栏

一、描述统计定义

描述性统计分析要对调查总体所有变量的有关数据做统计性描述，主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。

常用的指标有平均值、中位数、四分位数，方差、标准差，标准分等等。数据的集中趋势一般采用平均值、中位数表示。数据的离散程度一般采用方差、标准差表示。

二、数据的频数分析

对于一个需要研究的问题，收集到数据后，首先要了解数据的分布范围、集中位置以及分布形态等特征。

频率表和频率直方图
集中趋势的描述

从频率表和频率分布图可看出频数分布的两个重要特性:

集中趋势
离散趋势

观察值有高有低，但服从一定的分布规律：

①越靠近中央部分，频率越高——集中趋势；
②绝大多数个体值并不与平均水平完全重合，而是不同程度地偏离平均水平——离中趋势

2.1、集中趋势分析

平均数 $\bar X$

反映一组分布呈对称的观察值在数量上的平均水平,是集中趋势的最主要测度值。(受极端数值的影响)

$\bar X = \frac{\sum_{i=1}^nX_i}{n}$

中位数 $M_e$

是将一组观察值从小到大按顺序排列, 位次居中的那个观察值, 小于和大于中位数的个体数相等，反映一组观察值的平均位置,不受极端数值的影响。在各变量值差异较大或频数分布为偏态时，中位数比算术平均数更具有代表性；

众数 $M_0$

出现频率最高的观察值，众数可能不唯一。众数也是一种位置平均数，不受极端数值的影响，在实际工作中应用较为普遍，在总体单位数较多，且具有明显的集中趋势时可以用众数表示集中趋势代表值。

可以根据平均数,中位数,众数的差别大小，粗略判断数据的分布类型

平均差

平均差：指各个变量值同平均数的离差绝对值的算术平均数。平均差异大，表明各标志值与算术平均数的差异程度越大，该算术平均数的代表性就越小；平均差越小，表明各标志值与算术平均数的差异程度越小，该算术平均数的代表性就越大。

2.2、数据离散程度分析

方差 $\sigma^2$

个体偏离总体平均水平的程度就是所谓的离均差,而离均差平方可以同等对待正的和负的离中情形。

总体方差：将离均差平方的平均值作为总体中个体值偏离平均水平的概括性指标。

$\sigma^2=\frac{\sum_{i=1}^N(X_i-u)^2}{N}$

标准差 $\sigma$

标准差又称均方差，具有量纲，与变量值的计量单位一致。

表示观察值变异程度（离散程度），当两组(或几组)资料均数相近、度量单位相同的条件下，标准差较大，说明观察值的变异程度较大，即各观察值离均数较远，因而均数的代表性较差；反之，标准差较小，均数的代表性较好。

变异系数CV

变异系数也称离散系数，用CV表示，是标准差与均数之比：

$=\frac{标准偏差 SD}{平均值Mean}*100\%$

其中样本标准偏差 $\sqrt{\frac{1}{N-1}\sum_{i=1}^2(X_i -u)^2}$ 。

是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量，主要是用于比较不同样本数据的离散程度。离散系数大，说明数据的离散程度也大；离散系数小，说明数据的离散程度也小。

标准误（Standard Error of Mean）

标准误，是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度，反映的是样本均数之间的变异。标准误不是标准差，是多个样本平均数的标准差。

$\frac{SD}{\sqrt n}$
在这里插入图片描述

标准误用来衡量抽样误差。标准误越小，表明样本统计量与总体参数的值越接近，样本对总体越有代表性，用样本统计量推断总体参数的可靠度越大。因此，标准误是统计推断可靠性的指标。

推荐阅读标准误(Standard Error)

异众比率（variation ratio）

异众比率指非众数组的频数占总频数的比例。异众比率主要适合测度分类数据的离散程度，当然，对于顺序的数据以及数值型数据也可以计算异众比率。

$V_{m_0}=\frac{N -f_{m_0} }{N}$
其中， $V_{m_0}$ 表示异众比率， $f_{m_0}$ 表示众数次数，N表示总体单位总数（即总体次数）。

它虽然也是一个反映离散程度的相对指标，但是与标准差系数不同。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大，说明非众数组的频数占总频数的比重越大，众数的代表性就越差；异众比率越小，说明非众数组的频数占总频数的比重越小，众数的代表性越好。

标准差系数又称均方差系数。反映标志变动程度的相对指标。总体标准差系数的计算公式为:
$V_{\sigma}=\frac{\sigma}{x}.100%$
其中： $V_{\sigma}$ 为标准差系数；σ为标准差；x 为平均数。当以样本标准差系数（称变异系数/离散系数）估计总体标准差系数时， $V_{\sigma}=V_{S}$ ，式中：VS为变异系数；S为样本标准差。对于不同水平的总体不宜直接用标准差指标进行对比，标准差系数能更好的反映不同水平总体的标志变动度。

全距（极差）

极差最直接也是最简单的方法，即最大值－最小值（也就是极差）来评价一组数据的离散度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。

$R=x_{max}-x_{min}$

四分位数间距

偏度四分位差反映了中间 50%数据的离散程度，其数值越小，说明中间的数据越集中；其数值越大，说明中间的数据越分散。四分位差不受极值的影响。

25 分位：第一四分位数(Q1)，又称“较小四分位数”，等于该样本中所有数值由小到大排列后第 25%的数字。
75 分位：第三四分位数(Q3)，又称“较大四分位数”，等于该样本中所有数值由小到大排列后第 75%的数字。
四分位差(IQR)：四分位差（quartile deviation），它是上四分位数（Q3，即位于 75%）与下四分位数（Q1，即位于 25%）的差。

$IQR = Q_3-Q_1$

在这里插入图片描述

推荐阅读如何深刻理解箱线图（boxplot）

峰度、偏度
峰度是分布集中趋势高峰的形状。
偏度是对分布偏斜方向及程度的测度。

偏度 > 0，右偏；偏度 < 0，左偏；偏度=0，对称；绝对值大于 0，偏态；绝对值大于 1：高度偏态；绝对值 0.5-1 中等偏态。

峰度 > 3，尖峰；峰度 = 3，正态；峰度 < 3，扁平；

参考文献
[1]贾俊平．统计学：中国人民大学出版社，2009年：107
[2]蔡忠建. 对描述性统计量的偏度和峰度应用的研究[J]. 北京体育大学学报, 2009, 032(003):75-76.
[3]S.伯恩斯坦, R.伯恩斯坦, 伯恩斯坦,等. 统计学原理:描述性统计学与概率.上册[M]. 科学出版社, 2002.