第二周:描述性统计
数据分布的特征从三个方面进行测度和描述:
分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度;
分布的离散趋势,反映各数据远离其中心值的趋势;
分布的偏态和峰态,反映数据分布的形状。
1、集中趋势
众数:一组数中出现次数最多的变量值。
中位数:一组数中排序后,处于中间位置上的变量值。
分位数:一组数排序后,处于25%与75%的位置上的数值,成为四分位数,前者称为上四分位,后者称为后四分位。
平均数:一组数相加后,除以数据的总个数,得到的结果就是平均数,也称为均值。
- 算术平均数,其数值的大小与变量值的大小有关
- 加权平均数,其数值的大小与变量值大小、权数大小有关
- 几何平均数,N个变量值乘积的n次方根。
2、离散程度
数值型数据
- 方差:各变量值与其平均数离差平方的平均数
- 标准差:方差的平方根
- 极差:一组数据中最大值与最小值之差
- 平均差:各变量值与其平均数离差的绝对值的平均数
顺序数据 - 四分位差:上四分位数与下四分位数之差
分类数据 - 异众比率:非众数组的频数占总频数的比率
相对离散程度 - 离散系数(变异系数):一组数据的标准差与其相应的平均数之比。
3、分布的形状 - 偏态系数,数据分布的不对称性成为偏态,偏态系数测度分布偏斜的程度。
- 峰态系数,数据分布的平峰或尖峰程度成为峰态,峰态系数度量数据分布的平峰或尖峰程度。