文章目录
数据分布的特征可以从三个方面进行测度和描述:
1.分布的集中趋势
2.分布的离散程度
3.分布的形状

集中趋势的度量
集中趋势central tendency指一组数据向某一中心值靠拢或聚集的程度,反映了一组数据中心点的位置所在。
分类数据:众数
众数mode一组数据中出现次数最多的变量值。也适用于顺序数据和数值型数据的集中趋势测度。
适合数据量较大的情况。
不受数据中极端值的影响。
众数是具有明显集中趋势点的数值。
顺序数据:中位数和分位数
- 中位数median是一组数据排序后处于中间位置上的变量值。也适用于数值型数据,不适用于分类数据。
不受数据中极端值的影响。
适合研究收入分配。 - 四分位数quartile也称四分位点,是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。
数值型数据:平均数
也称均值mean一组数据相加后除以数据的个数得到的结果。不适用于分类数据和顺序数据。
是集中趋势最主要测度值。
在统计学中具有重要的地位,是进行统计分析和统计推断的基础。
是一组数据的重心所在,是数据误差相互抵消后的必然结果。
- 简单平均数simple mean
根据未经分组数据计算的平均数。 - 加权平均数weighted mean
根据分组数据计算的平均数。 - 特殊的平均数:几何平均数geometric mean
是 n n n个变量值乘积的 n n n次方根。
变量值本身是比率的形式时,采用几何平均法计算平均比率更为合理。
主要用于计算现象的平均增长率。
众数、中位数和平均数的比较
- 三者的关系
从分布的角度看,众数是最高峰值,中位数是处于中间位置上的值,平均数是全部数据的算术平均。
- 三者的特点和应用场合
众数:不受极端值影响;具有不唯一性(一个、两个、多个或没有众数);数据量较多时才有意义,数据量少时不宜使用;主要适合分类数据的集中趋势测度。
中位数:不受极端值影响;数据分布偏斜程度较大时,宜用中位数;主要适合顺序数据的集中趋势测度。
平均数:利用了全部数据信息;数据对称分布或接近对称分布时,宜用平均数;易受极端值的影响,偏态分布的数据,平均数代表性较差。
离散程度的度量
离散程度,反映各数据远离其中心值的程度。离散程度越大,集中趋势的测度值对该组数据的代表性就越差,反之,代表性就越好。
集中趋势与离散程度:中心值与代表性
分类数据:异众比率
异众比率variation ratio指非众数组的频数占总频数的比例。
衡量众数对一组数据的代表程度。
异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差,反之,代表性越好。
主要适用于分类数据,顺序数据和数值型数据也可以使用。
顺序数据:四分位差
四分位差quartile deviation也称内距或四分间距inter-quartile range,是上四分位数与下四分位数之差。