管理统计学之用统计量描述数据
第三章 用统计量描述数据
数据分布的特征:
- 数据水平
- 数据差异
- 分布形状
3.1 水平的度量
3.1.1平均数
简单算数平均数:
- 消除了观测值的随机波动
- 易受极端值的影响
加权平均数:
加强了权重对平均数的影响
几何平均数:
- n 个变量值乘积的 n 次方根
- 适用于对比率数据的平均
- 主要用于计算平均增长率
- 当数据中出现零值或负值时不宜计算几何平均数
切尾均值:
- 去掉大小两端的若干数值后计算中间数据的均值
- 在电视大奖赛、体育比赛及需要人们进行综合评 价的比赛项目中已得到广泛应用
3.1.2分位数
中位数:
-
排序后位于中间位置的值。不受极端值影响
-
位置确定中位数为从小到大数中第 ( n + 1 ) / 2 (n+1)/2 (n+1)/2个数
-
数值确定:如果n为奇数,则为第 ( n + 1 ) / 2 (n+1)/2 (n+1)/2个数的值;如果n为偶数,则为第 n / 2 n/2 n/2与 ( n / 2 ) + 1 (n/2)+1 (n/2)+1个数的平均值
由单变量值分组确定中位数:先从总频数寻找中位数,再分组寻找即可。
四分位数:
- 排序后处于25%和75%位置上的值
- 不受极端值的影响
- 可以用于定序尺度数据,也可用于定比尺度数据,但不能用于定类尺度数据
- 如果确定位置后不是整数,处理方法类似于处理中位数
百分位数:
- 用99个点将数据分成100等分,处于各分位点上的数值就是百分位数。百分位数提供了各项数据在最小值和最大值之间分布的信息。
- 设 P i P_i Pi为第i个百分位数,其计算公式为 ( i / 100 ) ∗ ( n + 1 ) (i/100)*(n+1) (i/100)∗(n+1)(有很多运算方式,但是大同小异)
- 如果位置是整数,百分位数就是该位置对应的数值;如果位置不是整数,百分位数等于该位置前面的数值加上按比例分摊的位置两侧数值的差值。中位数就是第50个百分位数。
众数:
- 一组数据中出现次数最多的变量值
- 一般情况下,只有在数据量较大且集中趋势明显的情况下,才能使用众数作为总体的代表值
- 众数是一个位置代表值,不受极端值的影响
- 主要用于定类数据,也可用于定序数据和定量数据。
- 众数可以是0到n个
3.1.3 用哪个值最能代表一组数据
左偏分布:均值<中位数<众数
对称分布:均值=中位数=众数
右偏分布:众数>中位数>均值
平均值:
- 易受极端值影响
- 数学性质优良,实际中最常用
- 数据对称分布或接近对称分布时代表性好
中位数:
- 不受极端值影响
- 数据分布偏斜程度较大时代表性好
众数:
- 不受极端值影响
- 具有不唯一性
- 数据分布倾斜程度较大且有明显峰值时代表性好
3.2 差异的度量
离散程度:
- 数据分布的另一个重要特征
- 反映各变量值远离其中心值的离散程度(离散程度)
- 从另一个侧面说明了集中趋势测度值的代表程度
- 不同类型的数据有不同的离散程度测度值
3.2.1极差和四分位差
极差:
- 一组数据的最大值与最小值之差
- 离散程度的最简单测度值
- 易受极端值影响
- 公式为R= X m a x − X m i n X_{max}-X_{min} Xmax−Xmin
四分位差
- 也称为內距离或四分间距
- 上四分位数与下四分位数之差: I Q R = Q 75 % − Q 25 % IQR=Q_{75\%}-Q_{25\%} IQR=Q75%−Q25%
- 反映了中间50%数据的离散程度
- 不受极端值的影响
- 用于衡量中位数的代表性
3.2.2 方差和标准差
- 数据离散程度的最常用测度值
- 反映各变量值与均值的平均差异
- 根据总体数据计算的,称为总体方差(标准 差),记为 ∂ 2 ( ∂ ) \partial^2(\partial) ∂2(∂);根据样本数据计算的, 称为样本方差(标准差),记为 s 2 ( s ) s^2(s) s2(s)
- 样本方差和标准差
- 方差计算公式为(注意分母是n-1) s 2 = ∑ i = 0 n ( X i − X ‾ ) 2 n − 1 = 0 s^2=\frac{\sum_{i=0}^n(X_i-\overline{X})^2}{n-1}=0 s2=n−1∑i=0n(X