数据分析之描述性统计

本文介绍了描述性统计,一种用于概括和理解数据特征的方法,包括中心趋势测度(如均值、中位数、众数),离散程度测度(如标准差、方差和极差),分布形状评估(正态性检验、偏度和峰度),以及频数分布可视化(如频数表和直方图)。
摘要由CSDN通过智能技术生成
描述性统计(Descriptive Statistics) 是一种统计学方法,用于对数据进行概括、总结和描述,以便更好地理解数据的特征和分布。描述性统计通常包括以下几个方面:
  1. 中心趋势测度:
  • 均值(Mean): 所有数据值的平均数,是数据集的中心趋势测度。计算方法为将所有数值相加,然后除以数据点的总数。

  • 中位数(Median): 数据集的中间值,将数据按大小排序后位于中间的数。适用于存在极端值的情况,不受异常值的影响。

  • 众数(Mode): 数据集中出现最频繁的值。

  1. 离散程度测度:
  • 标准差(Standard Deviation)和方差(Variance): 衡量数据点相对于均值的分散程度。标准差是方差的平方根。

  • 极差(Range): 最大值与最小值之间的差异,是最简单的测度离散程度的方法。

  1. 分布形状:
  • 正态性检验: 用于检查数据是否符合正态分布,包括直方图和正态概率图等图形工具。

  • 偏度(Skewness)和峰度(Kurtosis): 分别描述数据分布的偏斜程度和尾部厚实程度。

  1. 频数分布:
  • 频数表(Frequency Table): 显示数据中各数值出现的频率。

  • 直方图(Histogram): 将数据范围划分为若干组,并绘制柱状图,用于可视化数据分布。

  1. 位置测度:
  • 百分位数(Percentiles): 划分数据集的百分比点。例如,第25百分位数是将数据排序后,25%的数据小于或等于这个值。

简单一句话:

描述性统计是通过均值、中位数、众数、标准差等指标,以及直方图和百分位数等图形工具,对数据的中心趋势、分散程度和分布形状进行概括和描述的统计学方法。

  • 8
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值