描述性统计分析——分布形态描述
一.相对位置的度量—标准化值
1.标准化值
1)也称为标准分数,描述的是一个数据在全体数据中的相对位置的度量,可以判断一组数据中是否有离群值,常用来对变量进行标准化 处理(建模时)
2)计算公式
含义是(数据-数据均值)/标准差 将数据变为均值为0,标准差为1的数据。
同时也把标准化值理解为,原始数据到均值的距离是标准差的多少倍。
2.例子
3.数据分布
经验法则表明:当一组数据对称分布时
(1)约有68%的数据在平均数加减1个标准差的范围之内
(2)约有95%的数据在平均数加减2个标准差的范围之内
(3)约有99%的数据在平均数加减3个标准差的范围之内
切比雪夫不等式:
1.切比雪夫不等式提供的是下”下界“,是所占比例至少是多少,对任意分布的数据·,至少有
的数据落在平均数加减k个标准差之内。
当一组数据不是堆成分布时:
(1)约有75%的数据在平均数加减2个标准差的范围之内
(2)约有89%的数据在平均数加减3个标准差的范围之内
(3)约有94%的数据在平均数加减4个标准差的范围之内
二 .分布形态描述-偏态与峰态
1.偏态
1)定义
偏态是指数据分布的偏斜程度。
2)测量方法
使用偏态系数进行测量,符号SK
未分组
分组
3)偏态的判断
**判断依据:**尾巴在那边就是什么分布
4)偏态与平均值,中位数,众数之间的关系
5)偏态程度区分
2.峰态
1)定义
峰态指的是数据分布的扁平程度
2)测量方法
使用峰态系数表示,符号K
3)计算方法
未分组
分组