第6章 描述性分析
数据的分布特征主要有三个:数据分布的集中趋势、数据分布的离散趋势、数据频数的分布形态。
6.1.1 集中趋势
集中趋势的目的是找到最能代表整个数据的数值。
1.适用类型
● 若为定类变量→计算众数。
●若为定序变量→计算众数或中位数。
●若为定距及定比变量→以下5种指标都可以。
2.描述数据集中趋势的5种指标
(1)众数
众数指一组数据中出现次数最多的数值。例如在一组数据10、12、18、24、12、20、12、15、10、23、18中,众数为12。
(2)中位数
中位数指将数据按大小顺序排列,排在中间位置的数值。例如在一组数据10、12、15、18、23中,中位数为15;在10、12、13、15、18、23这组数据中,中位数为14((13+15)/2),由此可知,中位数不一定存在于原始数据中。
注意:当有极端值、偏态分布、数据分布不对称时,使用中位数,但中位数无法反映所有样本的情况。
(3)算术平均数
算术平均数指一组数据的平衡点。若一组数据中没有极端值,则平均数考虑了所有的信息量,是最有代表性的数值;平均数易受极端值的影响,若存在极端值,则最好用截尾均数或中位数来代替平均数。
(4)截尾均数
平均数易受极端值的影响,可以通过截去极端数据(具体去掉多少根据实际情况而定),只求去掉极端值后剩下数值的均数,在SPSS的“探索性分析”中可以自动计算“5%剪除后平均值”。</