描述性统计分析——(集中趋势、离中趋势、正态分布)

描述性统计是用于概述、显示或描述数据集特征的统计方法,不涉及数据之间的关系或推断过程。集中趋势是描述性统计中的一个核心概念,主要描述数据集中的典型值或数据的“中心”所在。

1 集中趋势的指标

  1. 平均数(Mean):数据集合的总和除以数据的数量。它是数据集中最常用的集中趋势度量,但容易受极端值的影响。

  2. 中位数(Median):将数据集按大小顺序排列后位于中间的数。如果数据集的数量是偶数,则中位数是中间两个数的平均值。中位数对极端值不敏感,因此在数据分布不对称时是一个好的集中趋势度量。

  3. 众数(Mode):数据集中出现次数最多的数值。一个数据集可能有一个众数、多个众数或没有众数(如果所有数据值出现次数相同)。

用Python实现

使用Python计算这些集中趋势指标很简单,因为NumPy和SciPy等库提供了现成的函数。以下是如何使用Python来计算平均数、中位数和众数的示例:

import numpy as np
from scipy import stats

# 示例数据
data = np.random.randint(0, 100, size=100)

# 平均数
mean = np.mean(data)
print(f"平均数: {
     mean}")

# 中位数
median = np.median(data)
print(f"中位数: {
     median}")

# 众数
mode = stats.mode(data)
print(f"众数: {
     mode.mode},出现次数: {
     mode.count}")


平均数: 53.75
中位数: 57.5
众数: 44,出现次数: 5

这段代码首先导入了必要的库,然后计算了一组示例数据的平均数、中位数和众数。注意,scipy.stats.mode()函数返回的是一个对象,其中包含了众数(mode)和众数出现的次数(count)。

注意点

  • 当处理实际数据时,选择合适的集中趋势度量是很重要的。例如,对于偏斜分布的数据,中位数可能比平均数更能代表数据的“中心”。
  • 众数在描述类别数据时特别有用,因为它可以告诉我们哪个类别是最常见的。
  • 在使用任何统计方法之
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值