文章目录
一、描述性统计分析简介
1. 定义和目的
描述性统计分析主要目的是利用总结性指标来描述、汇总和解释数据集。通过对数据的分布、集中趋势和离散程度进行统计分析,可以帮助人们更好地理解数据的特征和规律,从而为决策制定提供支持。
描述性统计分析的主要任务包括:
- 描述数据的集中趋势:通过计算均值、中位数和众数等指标来了解数据的平均水平或中心位置。
- 衡量数据的离散程度:通过计算方差、标准差和极差等指标来评估数据的波动程度或分散程度。
- 描述数据的分布形状:通过偏度和峰度等指标来描述数据分布的对称性和峰态。
2. 与推断统计的对比
描述性统计分析与推断统计是统计学中两个基本的分析方法,它们有着不同的目的、方法和应用场景。
-
描述性统计分析着重于对已有数据进行总结和描述,旨在通过统计指标揭示数据的特征和规律,而不需要对数据背后的总体进行推断或假设检验。
-
推断统计则涉及对数据的抽样和推断,其目的是通过对样本数据的分析来推断总体的特征,并对这些推断进行统计推断的可信度评估。
当我们只关注于对已有数据进行描述和总结时,描述性统计是首选的方法。而当我们需要对总体进行推断、假设检验或参数估计时,则需要借助推断统计的方法。
二、关键统计量
1. 集中趋势的度量
集中趋势是描述数据在某一位置上的分布情况的统计量,常用的集中趋势度量包括:
1.1 均值(Mean)
均值是指一组数据中所有数值的平均值,通过将所有数据值相加然后除以数据的数量得到。均值是最常用的集中趋势度量之一,能够反映数据的平均水平。
1.2 中位数(Median)
中位数是一组数据中处于中间位置的数值,即将数据按大小排序后位于中间位置的数值。中位数不受极端值的影响,因此在数据存在异常值或偏斜分布时常被使用。
1.3 众数(Mode)
众数是一组数据中出现频率最高的数值,即数据中出现次数最多的数值。众数对于描述数据的集中趋势具有一定的指示作用,尤其适用于离散型数据。
2. 离散程度的度量
离散程度度量用于衡量数据的波动程度或分散程度,常用的离散程度度量包括:
2.1 方差(Variance)
方差是一组数据与其均值之间差异的平方和的平均值,是衡量数据离散程度的常用指标。方差越大,表示数据的波动程度越大。
2.2 标准差(Standard Deviation)
标准差是方差的平方根,用于度量数据的离散程度。标准差的大小与数据的分布散度密切相关,是描述数据分布广度的重要指标。
2.3 极差(Range)
极差是一组数据中最大值与最小值之间的差值,简单直观地反映了数据的范围。虽然极差容易计算,但它只考虑了数据的最大和最小值,忽略了中间数据的分布情况。
3. 数据分布的形状
数据分布的形状描述了数据在统计学上的特征,包括对称性、偏斜程度和峰度等方面,常用的形状度量包括:
3.1 偏度(Skewness)
偏度用于描述数据分布的偏斜程度,即数据分布相对于均值的不对称程度。正偏度表示数据分布右偏(右边的尾部较长),负偏度表示数据分布左偏(左边的尾部较长)。
3.2 峰度(Kurtosis)
峰度用于描述数据分布的尖峭程度,即数据分布的尾部和中间部分的相对比较。正峰度表示数据分布的尾部较厚,峰值较高,负峰度表示数据分布的尾部较细,峰值较低。