描述性统计分析——（集中趋势、离中趋势、正态分布）

最新推荐文章于 2025-04-12 11:09:30 发布

action_mind

最新推荐文章于 2025-04-12 11:09:30 发布

阅读量7.3k

点赞数 51

分类专栏：数据分析-python 文章标签： python 数学建模概率论

本文链接：https://blog.csdn.net/chengyulinhhhh/article/details/137509420

版权

描述性统计是用于概述、显示或描述数据集特征的统计方法，不涉及数据之间的关系或推断过程。集中趋势是描述性统计中的一个核心概念，主要描述数据集中的典型值或数据的“中心”所在。

1 集中趋势的指标

平均数（Mean）：数据集合的总和除以数据的数量。它是数据集中最常用的集中趋势度量，但容易受极端值的影响。
中位数（Median）：将数据集按大小顺序排列后位于中间的数。如果数据集的数量是偶数，则中位数是中间两个数的平均值。中位数对极端值不敏感，因此在数据分布不对称时是一个好的集中趋势度量。
众数（Mode）：数据集中出现次数最多的数值。一个数据集可能有一个众数、多个众数或没有众数（如果所有数据值出现次数相同）。

用Python实现

使用Python计算这些集中趋势指标很简单，因为NumPy和SciPy等库提供了现成的函数。以下是如何使用Python来计算平均数、中位数和众数的示例：

import numpy as np
from scipy import stats

# 示例数据
data = np.random.randint(0, 100, size=100)

# 平均数
mean = np.mean(data)
print(f"平均数: {
     mean}")

# 中位数
median = np.median(data)
print(f"中位数: {
     median}")

# 众数
mode = stats.mode(data)
print(f"众数: {
     mode.mode}，出现次数: {
     mode.count}")

平均数: 53.75
中位数: 57.5
众数: 44，出现次数: 5

这段代码首先导入了必要的库，然后计算了一组示例数据的平均数、中位数和众数。注意，scipy.stats.mode()函数返回的是一个对象，其中包含了众数(mode)和众数出现的次数(count)。

注意点

当处理实际数据时，选择合适的集中趋势度量是很重要的。例如，对于偏斜分布的数据，中位数可能比平均数更能代表数据的“中心”。
众数在描述类别数据时特别有用，因为它可以告诉我们哪个类别是最常见的。
在使用任何统计方法之

最低0.47元/天解锁文章