描述性统计变量-数字特征
描述性统计是借助图表或者总结性的数值来描述数据的统计手段。
中心位置:描述数据的平均情况
- 均值 mean
- 中位数 median
- 众位数 mode # 出现次数最多的
发散程度,数据以中心位置为标准有多发散
- 极差,PTP,max-min
- 方差,variance,var(data),
- 标准差,std(data)
- 变异系数CV,cv=std(data)/mean(data)
偏差程度 - z-score,定义z-分数(Z-Score)为测量值距均值相差的标准差数目,(data[0]-mean(data)) / std(data),通常来说,z-分数的绝对值大于3将视为异常。
相关程度
有两组数据时,我们关心这两组数据是否相关,相关程度有多少。
data = array([data1, data2])
- 协方差,协方差的绝对值越大表示相关程度越大,协方差为正值表示正相关,负值为负相关,0为不相关。 cov(data, bias=1)
- 相关系数,相关系数是基于协方差但进行了无量纲处理。corrcoef(data)