一 概念
描述统计学即用特定的描述性指标对复杂的数据进行归纳,无需知道所有数据信息即可描述数据集的整体情况。
二 常用指标
1 平均值
- 由于平均值对异常值不敏感,所以通常不能用平均值表示数据集的整体情况
- 当数据集不存在异常值时可使用平均值衡量整体情况
2 四分位数
- 与中位数有关且能够从整体上描述数据集的分布状态
- 通过四分位数绘制箱线图从而识别异常值并做相应的处理
- 无法显示数据集的波动幅度
四分位数的计算:
1)求中位数
i)按从小到大的顺序排列数据
其中最小值为下界,最大值为上界。
ii)计算中间位置:
- 若n为奇数,则中位数是位于中间的数值
- 若n为偶数,则中位数是中间两个数的平均值
2)求下四分位数/上四分位数
求中位数左/右边数据的中位数,得到下/上四分位数。
- 下/上四分位数将中位数左/右边的数据一分为二
- 下四分位数/中位数/上四分位数将整个数据分成了4份,每份数据的数目占整个数据集的25%
若以一组排序后的偶数序列数为例:12,15,17,19,20,23,25,28,30,33,34,35,36,37。
1)下四分位数Q1
i)确定四分位数的位置。
Qi所在位置=i(n+1)/4,其中i=1,2,3。n表示序列中包含的项数。
ii)根据位置,计算相应的四分位数。
Q1所在的位置=(14+1)/4=3.75,