即一组数据距离数据中心的靠近程度,反应了一组数据中心的位置所在
数据集中趋势度量的指标有:众数、平均数、中位数、几何平均数等。
众数:即出现次数最多的,常用在不同类别的数量统计中,不受峰值的影响,一组数据中可能会存在多个众数,不具备唯一性,数据量较少时意义不大。
平均数:可分为简单平均数和加权平均数,简单平均数即一组数据的平均值,加权平均数即根据分组数据计算的平均数。平均数是一组数据的重心,是经多次测量正负误差互相抵消后事物特征的真实反映。
中位数:一组数据排序后,处于中间位置的那个数据,主要用于顺序数据的集中趋势度量,不适用于分类数据。
几何平均数:即对n个数据相乘后,开n次方,,几何平均数主要用于计算平均比率。比如一直股票的年收益率数据,计算平均每年的收益率,用几何平均数才是合理的,要注意几何平均数的变量不能是负数和0。
下面针对几何平均数与简单平均数的差异进行说明:
from functools import reduce
import math
#假设一只股票持有了5年,每年的年收益率数据如下,原始投入成本10000元
rate = [0.045,0.021,0.255,0.019]
#简单平均收益率
sig_G = sum(rate)/len(rate)
print ('简单平均收益率',sig_G)
简单平均收益率 0.085
#几何平均收益率
j_G = math.pow(reduce(lambda x,y:x*y,[1+i for i in rate]),1/len(rate))-1
print ('几何平均收益率',j_G)
几何平均收益率 0.08078668483359586
#实际收入
rel_cont = 10000*(1+0.045)*(1+0.021)*(1+0.255)*(1+0.019)
print ('实际收入',rel_cont)
实际收入 13644.572785249995
#按照简单平均收益率计算
sig_cont=10000*(1+sig_G)**4
print('简单平均收益',sig_cont)
简单平均收益 13858.587006249998
#按照几何平均收益率计算
j_cont=10000*(1+j_G)**4
print('几何平均收益',j_cont)
几何平均收益 13644.572785249995
可以看到简单平均收益与实际收益不符