数据的概括性度量
集中趋势
分类数据
众数:出现最多的变量值,峰值
顺序数据
中位数:位置在中间的变量值 。位置:
分位数:上四分位位置: 下四分位位置:
假设目前有9个数据,则下四分位=9/4=2.25,数据位于第二位和第三位数据的25%的位置。
假设目前有9个数据,则上四分位=3*9/4=6.75,数据位于第六位和第七位数据的75%位置。
数值型数据
平均数:
加权平均数:
几何平均数: 主要用于计算平均比率,如平均增长率。
离散程度
分类数据
异众比率:非众数组的频数占总频数的比例。衡量众数是否有代表度。比率大,众数代表性差。
顺序数据
四分位差:上四分位-下四分位。中间的数据集的集中程度,越大越离散。
数值型数据
极差:max-min
平均差:也叫平均离差。反应变量与平均值的差异程度,越大说明数据越离散。 (∑|x-x'|)/n
方差:变量值与平均数差值平方的平均数。
标准差:方差开方。
标准分数:也称标准化或Z分数。线性变化数据,平均数为0,方差为1.
经验法则:68-95-99法则。
切比雪夫:75-89-94法则。
相对离散程度
离散系数(变异系数)=标准差/平均值
考验离散程度,越小数据越稳定。