平均数也叫做集中趋势量数(measures of central tendency),一般有三种形式:均值、中位数和众数。

计算均值

均值很简单,就是数据组中的所有数值的总和除以该组数值的个数。

均值也叫做算术平均数。

 

计算加权平均数

就是每一个数值乘以它出现的次数,并将所有的积相加,然后除以次数的总和。

计算中位数

中位数被定义为一系列数据的中点,也就是一系列数据中间位置的哪个数值。如果数据组个数为偶数,那么中位数就是中间两个数值的平均值。在数据组中,有一半的数据在中位数之上,有一半的数据在中位数之下。

百分位点

百分位点用于定义数据集或数据分布中等于或者小于一个特定数值的个体的百分数。例如,你的成绩是“处在75百分位点”,这意味着你的成绩刚好或者是超过75%的其他人的成绩。

 

中位数对于极值不敏感,而均值对于极值敏感。

极值就是与其所属数据组数据非常不同的值。

由于均值容易受到极值的影响,所以在某些场合,使用中位数更合适。例如,收入统计,极高和极低的收入会影响收入平均数的统计,这时候就使用中位数来作为收入平均数的统计结果。

计算众数

最笼统、最不精确的集中趋势量数。众数就是出现次数最多的数值。

如果出现不止一个数值出现次数最多,也就是几个数值出现的次数一样,都是最多,那么就是多峰分布。两个数值出现最多就是双峰分布。

何时用什么

定性数据、类别数据或定类数据的集中趋势只可以使用众数来描述。定量的数据就使用均值和中位数。

1、如果数据属性是分类的,而且数据只属于一种类型,就是用众数。

2、如果数据包含极值,而且你不想扭曲平均数,就是用中位数。

3、如果数据不包括极值,也不是分类数据,就是用均值。