【统计学】如何描述数据分布的特征?

在统计学中,描述数据分布的特征通常包括以下四个方面:集中趋势离散程度分布形态极端值分析

1. 集中趋势

反映数据集中在哪个值附近,常用指标有:

  • 均值(Mean):包括算术平均值、加权平均数、几何平均数,易受极端值影响,用于数值型数据,不能用于分类数据和顺序数据。
    • 算数平均数
      算数平均数在这里插入图片描述
    • 加权平均数
      在这里插入图片描述在这里插入图片描述
    • 几何平均数
      在这里插入图片描述
  • 中位数(Median):排序后中间位置的值,不受极端值影响,主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。
  • 众数(Mode):出现次数最多的数值,适合数据量较多或多峰分布时,并且在数据分布偏斜程度较大且有明显峰值时应用。

2. 离散程度

反映数据的分散程度(是否集中在某个点附近):

  • 极差(Range):最大值 - 最小值,易受极端值影响。
  • 方差(Variance, 𝜎^2):数据偏离均值的平方和的平均值,计算公式:
    在这里插入图片描述
  • 标准差(Standard Deviation, 𝜎):方差的平方根,反映数据的平均偏离程度。
  • 变异系数(Coefficient of Variation, 𝐶𝑉):标准差除以均值,衡量数据的相对离散程度,适用于比较不同量纲的数据。
    在这里插入图片描述

3. 分布形态(对称性 & 尖峰性)

描述数据的形状,包括对称性和尾部厚度:

  • 偏度(Skewness, 𝑆):衡量数据分布的对称性:
    在这里插入图片描述
  • 峰度(Kurtosis, 𝐾):衡量数据分布的陡峭程度:
    在这里插入图片描述
指标公式衡量内容典型分布
偏度 𝑆在这里插入图片描述数据对称性𝑆 = 0(正态分布)、𝑆 > 0(右偏)、𝑆 < 0(左偏)
峰度 𝐾在这里插入图片描述分布陡峭度𝐾 = 0(正态分布)、𝐾 > 0(高峰)、𝐾 < 0(低峰)

4. 极端值分析

  • 最大值 & 最小值:整体数据的界限。
  • 四分位数(Quartiles):将数据按从小到大排序
    • Q1(第一四分位数):第 25% 分位的数值。
    • Q2(第二四分位数):第 50% 分位的数值(中位数)。
    • Q3(第三四分位数):第 75% 分位的数值。
    • IQR(四分位距):IQR = Q3 − Q1,衡量数据的中间 50% 的变异范围。
  • 箱线图(Box Plot):用于发现异常值,若数据点超出 1.5 × 𝐼𝑄𝑅 的范围,通常被视为异常值(Outlier)。
    在这里插入图片描述

总结

维度主要指标作用
中心趋势均值、中位数、众数描述数据的中心
离散程度极差、方差、标准差、变异系数衡量数据的波动性
分布形态偏度、峰度评估对称性和尖锐程度
极端值分析四分位数、箱线图识别异常值
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值