1 集中趋势的度量
分类数据:众数
顺序数据:中位数和分位数
分位数:上四分位数(Ql)、下四分位数(Qu)
Ql位置=n/4,Qu位置=3n/4
如果位置是整数,四分位数就是在该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75的位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
数值型数据:平均数
几何平均数:n个变量值乘积的n次方根,主要用于计算平均比率。
众数和中位数都不受极端值的影响。
2 离散程度的度量
分类数据:异众比率
异众比率指非众数组的频数占总频数的比例。
顺序数据*:四分位差
四分位差是上四分位数与下四分位数之差,反映了中间50%数据的离散程度,其数据越小,说明中间数据越集中
数值型数据:方差和标准差
极差:最大值与最小值之差,易受极端值影响
平均差:平均绝对离差,各变量值与其平均数离差绝对值的平均数
方差:各变量与其平均数离差平方的平均数。样本方差用样本数据个数减1后去除离差平方和,其中样本数据个数减1即n-1成为自由度
标准差:与方差不同的是,其是具有量纲的,它与变量值的计量单位相同。
相对位置的度量
有了平均数和标准差之后,可以计算一组数据中各个数值的标准分数,以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群数据。
标准分数:变量值与其平均数的离差除以标准差后的值,也称标准化值。如某个数值的标准分数为-1.5,则该数值低于平均数1.5倍的标准差。
经验法则:
当一组数据对称分布时,经验法则表明:
约有68%的数据在平均数±1个标准差的范围内;
约有95%的数据在平均数±2个标准差的范围内;
约有99%的数据在平均数±3个标准差的范围内;
一组数据中,高于或低于平均数3个标准差的数值很少,这些数据成为离群点。
切比雪夫不等式
经验法则适合对称分布数据,而对于不对称数据,则可使用切比雪夫不等式,它对任何分布形状的数据都使用。根据切比雪夫不等式,至少有 (1−1/k 2 ) 的数据落在 k 个标准差之内,其中
相对离散程度:离散系数
对于平均水平不同或计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的。为消除变量值水平高低和计量单位不同对离散程度测量值的影响,需要计算离散系数。
离散系数:也称变异系数,是一组数据的标准差与其相应的平均之比,离散系数大,说明数据的离散程度也大。
3 偏态与峰态的度量
1偏态及其测度
偏态(skewness)是对数据分布对称性的测度。测度偏度的统计量是偏态系数,记作SK。
根据未分组的原始数据计算偏态系数时,通常采用下面的公式:
SK=n</