描述性统计分析——(集中趋势、离中趋势、正态分布)

描述性统计是用于概述、显示或描述数据集特征的统计方法,不涉及数据之间的关系或推断过程。集中趋势是描述性统计中的一个核心概念,主要描述数据集中的典型值或数据的“中心”所在。

1 集中趋势的指标

  1. 平均数(Mean):数据集合的总和除以数据的数量。它是数据集中最常用的集中趋势度量,但容易受极端值的影响。

  2. 中位数(Median):将数据集按大小顺序排列后位于中间的数。如果数据集的数量是偶数,则中位数是中间两个数的平均值。中位数对极端值不敏感,因此在数据分布不对称时是一个好的集中趋势度量。

  3. 众数(Mode):数据集中出现次数最多的数值。一个数据集可能有一个众数、多个众数或没有众数(如果所有数据值出现次数相同)。

用Python实现

使用Python计算这些集中趋势指标很简单,因为NumPy和SciPy等库提供了现成的函数。以下是如何使用Python来计算平均数、中位数和众数的示例:

import numpy as np
from scipy import stats

# 示例数据
data = np.random.randint(0, 100, size=100)

# 平均数
mean = np.mean(data)
print(f"平均数: {mean}")

# 中位数
median = np.median(data)
print(f"中位数: {median}")

# 众数
mode = stats.mode(data)
print(f"众数: {mode.mode},出现次数: {mode.count}")


平均数: 53.75
中位数: 57.5
众数: 44,出现次数: 5

这段代码首先导入了必要的库,然后计算了一组示例数据的平均数、中位数和众数。注意,scipy.stats.mode()函数返回的是一个对象,其中包含了众数(mode)和众数出现的次数(count)。

注意点

  • 当处理实际数据时,选择合适的集中趋势度量是很重要的。例如,对于偏斜分布的数据,中位数可能比平均数更能代表数据的“中心”。
  • 众数在描述类别数据时特别有用,因为它可以告诉我们哪个类别是最常见的。
  • 在使用任何统计方法之前,了解数据的分布和性质是非常重要的,这将帮助你做出更准确的分析和决策。

2 离中趋势

离中趋势度量用于描述数据集中值的分散、偏斜和峰值情况。这些统计量帮助我们理解数据的波动性、分布形状及其相对于平均值的偏离程度。

实际应用场景

  1. 四分位差 (Interquartile Range, IQR): 表示数据的中间50%的分布范围,常用于识别异常值。例如,在房价数据分析中,四分位差可以帮助确定大多数房价的分布范围,并识别异常高或低的价格。

  2. 标准差 (Standard Deviation)方差 (Variance): 这两个度量标准用于量化数据点偏离平均值的程度。在投资领域,标准差常用于衡量投资回报的波动性或风险。

  3. 偏度 (Skewness): 描述数据分布的不对称性。正偏度表示数据右侧尾部更长,负偏度表示左侧尾部更长。在财务分析中,偏度可以帮助分析资产回报的分布特征,指导风险管理决策。

  4. 峰度 (Kurtosis): 衡量数据分布的尖锐程度。高峰度表示数据有更尖的峰和更厚的尾部,可能意味着数据中存在更多的极端值。在质量控制中,峰度分析可以揭示生产过程中的异常情况。

import numpy as np
from scipy import stats

# 示例数据
data = np.array([1, 2, 2, 3, 4, 6, 7, 8, 9, 10])

# 四分位差
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
print(f"四分位差: {IQR}")

# 标准差
std_dev = np.std(data, ddof=1)  # ddof=1 为样本标准差
print(f"标准差: {std_dev}")

# 方差
variance = np.var(data, ddof=1)  # ddof=1 为样本方差
print(f"方差: {variance}")

# 偏度
skewness = stats.skew(data)
print(f"偏度: {skewness}")

# 峰度
kurtosis = stats.kurtosis(data, fisher=True)  # Fisher定义,正常分布的峰度为0
print(f"峰度: {kurtosis}")

四分位差: 5.5
标准差: 3.2249030993194197
方差: 10.399999999999999
偏度: 0.14582994664121351
峰度: -1.449813719044488

四分位差: 5.5

  • 四分位差 (IQR) 表示数据分布中间50%的范围。具体来说,它是第三四分位数(Q3)与第一四分位数(Q1)之间的差异。在这个例子中,IQR为5.5,意味着数据集中间50%的数值分布在一个5.5单位的范围内。四分位差是衡量数据散布(即分布的紧密程度)的重要指标,较大的IQR表示中间数据更分散。

标准差: 3.2249030993194197

  • 标准差 是衡量数据集中各个数据点偏离平均值的平均程度。标准差越大,表示数据点相对于平均值的波动越大;标准差越小,表示数据点较为集中。这个例子中,标准差约为3.22,表明数据点在平均值周围平均偏离约3.22单位。

方差: 10.399999999999999

  • 方差 是标准差的平方,也用于衡量数据的波动性。方差越大,数据的分散程度越高。这个例子中,方差约为10.4,与标准差相对应,提供了波动性的另一种度量方式。

偏度: 0.14582994664121351

  • 偏度 描述了数据分布的不对称性。偏度值为正表示数据分布的右尾(较大值)更长,为负表示左尾(较小值)更长。接近0的偏度值意味着数据分布比较对称。这里的偏度值约为0.146,表明数据分布相对较为对称,但略微右偏。

峰度: -1.449813719044488

  • 峰度 描述了数据分布顶部的尖锐程度以及尾部的厚度。峰度大于0表示一个比正态分布更尖锐的峰值和更厚的尾部;小于0表示一个比正态分布更平缓的顶部和较薄的尾部。这个例子中,峰度约为-1.45,意味着数据分布的顶部比正态分布更平缓,尾部较薄。

总结

这组数据显示了一个相对波动性中等、略微右偏但接近对称分布、顶部较为平缓的数据分布。这些统计量为我们提供了关于数据集分布特性的全面视图,有助于进一步分析和决策。

3正态分布

正态分布是许多统计分析和假设检验的基础。在实际数据分析中,检验数据是否遵循正态分布是一个常见步骤,因为许多统计方法要求数据接近正态分布。下面我将简要介绍几种检验数据正态性的方法,并提供Python实现示例。

1. KS检验 (Kolmogorov-Smirnov Test)

KS检验是一种非参数检验,用于比较两个样本是否来自同一分布,或者比较一个样本与参考分布(如正态分布)是否相同。

from scipy import stats
import numpy as np

# 生成正态分布样本数据
data = np.random.normal(loc=0, scale=1, size=100)

# KS检验,比较数据与标准正态分布
ks_statistic, p_value = stats.kstest(data, 'norm')
print(f"KS统计量: {ks_statistic}, P值: {p_value}")
KS统计量: 0.04007914255552314, P值: 0.9951867096784285

2. P-P图 (Probability-Probability Plot) 和 QQ图 (Quantile-Quantile Plot)

P-P图和QQ图是用于图形化检验数据分布的方法。P-P图比较累积分布函数(CDF),而QQ图比较分位数。这两种图都可以用于评估数据是否近似正态分布。

import numpy as np 
import matplotlib.pyplot as plt 
import scipy.stats as stats

# 生成正态分布样本数据
data = np.random.normal(loc=0, scale=1, size=100)

# 绘制QQ图
stats.probplot(data, dist="norm", plot=plt)
plt.title("QQ Plot")
plt.show()

在这里插入图片描述

3. W检验 (Shapiro-Wilk Test)

Shapiro-Wilk检验是一种用于检验数据正态性的方法,它检验一个样本是否来自正态分布。

from scipy import stats

# 生成正态分布样本数据
data = np.random.normal(loc=0, scale=1, size=100)

# 进行Shapiro-Wilk检验
w_statistic, p_value = stats.shapiro(data)
print(f"W统计量: {w_statistic}, P值: {p_value}")
W统计量: 0.9947768396389826, P值: 0.9689670597988114

4. 动差法 (Method of Moments)

动差法是一种基于样本矩(如均值、方差)来估计分布参数的方法。虽然它不是一个正态性检验,但可以用于计算样本的偏度和峰度,进而提供数据是否接近正态分布的线索。

Python计算偏度和峰度:
# 使用之前生成的data
# 计算偏度
skewness = stats.skew(data)
print(f"偏度: {skewness}")

# 计算峰度
kurtosis = stats.kurtosis(data)
print(f"峰度: {kurtosis}")
偏度: 0.13125063245973762
峰度: -0.14368564194099953

以上方法提供了不同的视角来评估数据的正态性。图形化方法(如P-P图和QQ图)提供直观的视觉证据,而统计检验(如KS检验和Shapiro-Wilk检验)提供了定量的证据。在实际应用中,通常建议结合多种方法来评估数据的正态性。
ata)
print(f"峰度: {kurtosis}")


    偏度: 0.13125063245973762
    峰度: -0.14368564194099953
    



以上方法提供了不同的视角来评估数据的正态性。图形化方法(如P-P图和QQ图)提供直观的视觉证据,而统计检验(如KS检验和Shapiro-Wilk检验)提供了定量的证据。在实际应用中,通常建议结合多种方法来评估数据的正态性。
  • 49
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
SPSS面板数据描述性统计分析是指使用SPSS软件对面板数据进行统计分析,以描述数据的特征和趋势。根据引用\[1\]中的步骤,可以进行以下操作来进行描述性统计分析: 1. 打开SPSS软件并导入需要分析的面板数据。 2. 点击"分析"菜单,选择"描述统计",再选择"描述"。 3. 将需要分析的变量移动到右边的框中。 4. 点击"选项",选择需要的统计指标,如频数分析、集中趋势分析、离散程度分析等。 5. 确定后,SPSS会生成相应的统计结果,包括频数表、平均值、中位数、方差、标准差等。 根据引用\[2\]中的描述,描述性统计分析主要包括频数分析、集中趋势分析、离散程度分析、分布和统计图形等。频数分析可以用来检验异常值,集中趋势分析可以反映数据的一般水平,离散程度分析可以反映数据之间的差异程度,分布分析可以检查数据是否符合正态分布,统计图形可以以图形的形式更直观地表达数据。 因此,SPSS面板数据描述性统计分析可以通过SPSS软件进行,包括对面板数据进行频数分析、集中趋势分析、离散程度分析、分布分析和绘制统计图形等操作。 #### 引用[.reference_title] - *1* [如何利用SPSS软件进行数据的描述性分析](https://blog.csdn.net/qq_42278015/article/details/119696576)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [描述性统计分析](https://blog.csdn.net/qq_52117903/article/details/124137845)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值