在统计学中,描述数据分布的特征通常包括以下四个方面:集中趋势、离散程度、分布形态、极端值分析。
1. 集中趋势
反映数据集中在哪个值附近,常用指标有:
- 均值(Mean):包括算术平均值、加权平均数、几何平均数,易受极端值影响,用于数值型数据,不能用于分类数据和顺序数据。
- 算数平均数
- 加权平均数
- 几何平均数
- 算数平均数
- 中位数(Median):排序后中间位置的值,不受极端值影响,主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。
- 众数(Mode):出现次数最多的数值,适合数据量较多或多峰分布时,并且在数据分布偏斜程度较大且有明显峰值时应用。
2. 离散程度
反映数据的分散程度(是否集中在某个点附近):
- 极差(Range):最大值 - 最小值,易受极端值影响。
- 方差(Variance, 𝜎^2):数据偏离均值的平方和的平均值,计算公式:
- 标准差(Standard Deviation, 𝜎):方差的平方根,反映数据的平均偏离程度。
- 变异系数(Coefficient of Variation, 𝐶𝑉):标准差除以均值,衡量数据的相对离散程度,适用于比较不同量纲的数据。
3. 分布形态(对称性 & 尖峰性)
描述数据的形状,包括对称性和尾部厚度:
- 偏度(Skewness, 𝑆):衡量数据分布的对称性:
- 峰度(Kurtosis, 𝐾):衡量数据分布的陡峭程度:
指标 | 公式 | 衡量内容 | 典型分布 |
---|---|---|---|
偏度 𝑆 | ![]() | 数据对称性 | 𝑆 = 0(正态分布)、𝑆 > 0(右偏)、𝑆 < 0(左偏) |
峰度 𝐾 | ![]() | 分布陡峭度 | 𝐾 = 0(正态分布)、𝐾 > 0(高峰)、𝐾 < 0(低峰) |
4. 极端值分析
- 最大值 & 最小值:整体数据的界限。
- 四分位数(Quartiles):将数据按从小到大排序
- Q1(第一四分位数):第 25% 分位的数值。
- Q2(第二四分位数):第 50% 分位的数值(中位数)。
- Q3(第三四分位数):第 75% 分位的数值。
- IQR(四分位距):IQR = Q3 − Q1,衡量数据的中间 50% 的变异范围。
- 箱线图(Box Plot):用于发现异常值,若数据点超出 1.5 × 𝐼𝑄𝑅 的范围,通常被视为异常值(Outlier)。
总结
维度 | 主要指标 | 作用 |
---|---|---|
中心趋势 | 均值、中位数、众数 | 描述数据的中心 |
离散程度 | 极差、方差、标准差、变异系数 | 衡量数据的波动性 |
分布形态 | 偏度、峰度 | 评估对称性和尖锐程度 |
极端值分析 | 四分位数、箱线图 | 识别异常值 |