CDA Level 1 数据分析师:4.2 数据的描述性统计
1. 描述统计
五个角度描述数据:
1. 总量指标:一年的营业额、利润
2. 相对指标:是两个有相互关系指标的比值(老龄化占比,营业额的完成情况,合格率)
3. 集中趋势:
1. 定义:一组数据向中心靠拢的趋势
2. 众数:出现的次数最多的变量值M0; 众数不唯一
3. 分位数:
1. 中位数:先排序,找中间位置的数
2. 四分位数:上分位数1/4; 下分位数3/4
3. 均值:
1. 算数平均数:简单算数平均数,加权算数平均数
加权算数平均数:用于分组的平均值,组中值*权重 再求和。权重:是一个概率:频数/总数
2. 几何平均数(用于增长率):
例:一只股票两年收益率分别为4.5%, 1.9% 计算投资者四年的平均收益率?
几何平均:G = sqrt(104.5% + 101.9%) - 1
3. 调和平均数(用于加速度计算):
1. 变量倒数的算数平均数的倒数
4. 均值不等式
对于同一组数据:算数平均数 ≥ 几何平均数 ≥ 调和平均数
当所有样本值相等时,等号成立
4. 离散程度:
1. 极差: 一组数据最大值-最小值
2. 平均差:各变量值与其均值离差的绝对值的平均数
1. 每个样本值到均值的平均距离
2. ΣABS(Xi-Xbar)
3. 总体方差和标准差 σ
4. 样本方差和标准差 S(注意计算样本方差时,分母是n-1)
5. 离散系数(变异系数)
因为可能两个组的数,量纲是不同的,如金钱的角和元之间的离散程度。
计算变异指标:标准差与均值的比值
2. 相对位置的度量-标准化值
1. 标准化值:
标准化值计算:每个样本到均值差值 是标准差的倍数(类似于去量纲)(Xi-Xbar)/S
从图像上可以理解为:先平移到零点,再将图像进行伸缩
2. 非标准分布:
切比雪夫不等式:1-1/K² 不管数据什么分布,至少有89%数据落在平均数加减3倍标准差的范围内。即K=3时,1-1/9 = 89%
说明三倍标准差以外的数据就认为是异常值
3. 分布形态的描述-偏态与峰值
1. 偏态
数据分布的偏离程度
判断:尾巴在哪就是哪个偏离(注意:图是数据出现的频数)
偏态系数< 0,左偏
偏态系数> 0,右偏
2. 峰态
峰态系数K = 0:适中
扁平分布 K < 0
尖峰分布 K > 0
4. 描述性统计图表
1. 直方图:横轴是范围,纵轴是频数
2. 散点图:描述X,Y之间的关系(年龄与收入的关系)
3. 箱型图:分析数据的离散型(包含:最大值、最小值、上下分位数、中位数)