描述性统计是用于概述、显示或描述数据集特征的统计方法,不涉及数据之间的关系或推断过程。集中趋势是描述性统计中的一个核心概念,主要描述数据集中的典型值或数据的“中心”所在。
1 集中趋势的指标
-
平均数(Mean):数据集合的总和除以数据的数量。它是数据集中最常用的集中趋势度量,但容易受极端值的影响。
-
中位数(Median):将数据集按大小顺序排列后位于中间的数。如果数据集的数量是偶数,则中位数是中间两个数的平均值。中位数对极端值不敏感,因此在数据分布不对称时是一个好的集中趋势度量。
-
众数(Mode):数据集中出现次数最多的数值。一个数据集可能有一个众数、多个众数或没有众数(如果所有数据值出现次数相同)。
用Python实现
使用Python计算这些集中趋势指标很简单,因为NumPy和SciPy等库提供了现成的函数。以下是如何使用Python来计算平均数、中位数和众数的示例:
import numpy as np
from scipy import stats
# 示例数据
data = np.random.randint(0, 100, size=100)
# 平均数
mean = np.mean(data)
print(f"平均数: {
mean}")
# 中位数
median = np.median(data)
print(f"中位数: {
median}")
# 众数
mode = stats.mode(data)
print(f"众数: {
mode.mode},出现次数: {
mode.count}")
平均数: 53.75
中位数: 57.5
众数: 44,出现次数: 5
这段代码首先导入了必要的库,然后计算了一组示例数据的平均数、中位数和众数。注意,scipy.stats.mode()
函数返回的是一个对象,其中包含了众数(mode
)和众数出现的次数(count
)。
注意点
- 当处理实际数据时,选择合适的集中趋势度量是很重要的。例如,对于偏斜分布的数据,中位数可能比平均数更能代表数据的“中心”。
- 众数在描述类别数据时特别有用,因为它可以告诉我们哪个类别是最常见的。
- 在使用任何统计方法之