对数据的描述分为三个维度,分别是:数据的集中趋势、数据的离中趋势和数据的分布形态。
数据的集中趋势
描述数据集中趋势的指标有众数、中位数和平均数,其中平均数又分为算数平均数、加权平均数和几何平均数
-
众数
数据集合中出现次数最多的数值被称为众数。如果一个数据集合中,只有一个数值出现最多,那么这个数值就是该数据集合的众数。众数表示数据集合的数据集中趋势。例如某个班级有10个学生,这些学生的数学成绩集合为{87,75,95,87,70,92,87,64,98,87},那么该班级的众数为87,有4个学生的成绩为87。
-
中位数
对于数据集合{x1,x2,…,xn},将所有的数值按照降序或升序排序,如果数据集合的数值个数是奇数,那么最中间的数值就是该集合的中位数;如果数据集合的数值个数是偶数,那么取最中间两个数值的算数平均值作为中位数。例如,上面班级10个学生的数学成绩升序排列后为{64,70,75,87,87,87,87,92,95,98},那么该班级的中位数为87。
中位数与算数平均值相比,中位数的优势在于不受数据集合中个别极端值的影响,表现出稳定的特点。这一特点使其在数据集合的数值分布有较大偏斜时,能够保持对数据集合特征的代表性。因此,中位数常被用来度量具有偏斜性质的数据集合的集中趋势。
-
算数平均数
是最常用的数据集中趋势指标,表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},该数据集合的算数平均数的计算公式为:
x ‾ = x 1 + x 2 + ⋯ + x n n \overline{x}=\frac{x_1+x_2+\cdots +x_n}{n} x=nx1+x2+⋯+xn
算数平均值有其明显的缺陷,当数据集合中有极大值或极小值存在时,会对算数平均值产生很大的影响,其 计 算结果会掩盖数据集合的真实特征,这时算数平均值就失去了代表性。 -
加权平均数
因为简单算数平均值认为所有的数据值都具有同等的重要性,所以每个数据值都具有相同的权重。但有些时候,每个数据值的权重是不一样的,需要用加权算数平均值来表示数据集合的集中趋势。某一数据集合为{x1,x2,…,xn},且每个数据的权重为{w1,w2,…wn}该数据集合的加权平均数的计算公式为:
x ‾ = x 1 w 1 + x 2 w 2 + ⋯ + x n w n n \overline{x}=\frac{x_1w_1+x_2w_2+\cdots +x_nw_n}{n} x=