数据的描述性统计

最新推荐文章于 2022-12-26 10:24:53 发布

Renirvana

最新推荐文章于 2022-12-26 10:24:53 发布

阅读量2.8k

点赞数

分类专栏：数据分析文章标签：数据分析描述性统计概率统计离中趋势集中趋势

本文链接：https://blog.csdn.net/Renirvana/article/details/96742581

版权

数据的描述性统计包含集中趋势、离中趋势和分布形态三个方面。集中趋势有众数、中位数和平均数（算术、加权、几何），其中中位数在有偏斜数据中更具代表性。离中趋势则通过方差、标准差、极差、分位数等指标衡量数据的波动程度，而分类数据使用异众比率。离散系数用于比较不同数据集合的离散程度，偏态系数和峰态系数反映数据分布的对称性和峰度。

摘要由CSDN通过智能技术生成

对数据的描述分为三个维度，分别是：数据的集中趋势、数据的离中趋势和数据的分布形态。

数据的集中趋势

描述数据集中趋势的指标有众数、中位数和平均数，其中平均数又分为算数平均数、加权平均数和几何平均数

众数

数据集合中出现次数最多的数值被称为众数。如果一个数据集合中，只有一个数值出现最多，那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生，这些学生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87}，那么该班级的众数为87，有4个学生的成绩为87。
中位数

对于数据集合{x₁,x₂,…,x_n}，将所有的数值按照降序或升序排序，如果数据集合的数值个数是奇数，那么最中间的数值就是该集合的中位数；如果数据集合的数值个数是偶数，那么取最中间两个数值的算数平均值作为中位数。例如，上面班级10个学生的数学成绩升序排列后为{64,70,75,87,87,87,87,92,95,98}，那么该班级的中位数为87。

中位数与算数平均值相比，中位数的优势在于不受数据集合中个别极端值的影响，表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时，能够保持对数据集合特征的代表性。因此，中位数常被用来度量具有偏斜性质的数据集合的集中趋势。
算数平均数

是最常用的数据集中趋势指标，表示数据集合的集中趋势。某一数据集合为{x₁，x₂，…,x_n}，该数据集合的算数平均数的计算公式为：
$\overline{x}=\frac{x_1+x_2+\cdots +x_n}{n}$
算数平均值有其明显的缺陷，当数据集合中有极大值或极小值存在时，会对算数平均值产生很大的影响，其计算结果会掩盖数据集合的真实特征，这时算数平均值就失去了代表性。
加权平均数

因为简单算数平均值认为所有的数据值都具有同等的重要性，所以每个数据值都具有相同的权重。但有些时候，每个数据值的权重是不一样的，需要用加权算数平均值来表示数据集合的集中趋势。某一数据集合为{x₁，x₂，…,x_n}，且每个数据的权重为{w₁,w₂,…w_n}该数据集合的加权平均数的计算公式为：
$\overline{x}=\frac{x_1w_1+x_2w_2+\cdots +x_nw_n}{n}$