描述数据常用的4个指标
平均值
四分位数
标准差
标准分
平均数
缺点:对异常数据的不敏感。即:不能用平均收入来衡量各个行业的收入【马云的工资】
四分位数:位置
优点:从整体上描述出数据集的分布状态
缺点:不能告知数据集的波动有多大
从小到大排列
下四分位数的位置Q1=(n+1)/ 4
中位数的位置Q2=(n+1)/ 2
上四分位数的位置Q3= 3×(n+1)/ 4
箱线图:上界、上四分位数、中位数、下四分位数、下界
解读:看中位数的位置,离哪个近(上下四分位数),表明数据集集中在哪个区间
应用:
1.常常用来比较不同类别的数据集情况
【如:不同城市的薪酬分布;不同经验的薪酬分布】
2.识别可能的异常值
最小估计值:Q1 - 1.5(Q3-Q1)
最大估计值:Q3 + 1.5(Q3-Q1)
标准差
标准差=波动大小=离散程度=变异性=方差开方
夏普比率=(投资回报-无风险回报)/ 投资组合的标准差
【夏普比率=50%:风险是回报的两倍】
标准分【标准化值或Z-分数】
(样本值 - 该样本的均值)/ 标准差
意义:距离均值有多少个标准差
标准分为正数:该数值大于均值
标准分为负数:该数值小于均值
质量管理:6西格玛【距离均值6个标准差,即标准分=6】