描述统计通俗来说就是对大量信息进行归纳,找出相应的指标对此进行描述。
也就是将复杂的数据简化为能起到描述性的数字(可衡量的指标)。
常用描述数据集整体情况的指标有:
1. 平均值
描述整体情况,但当有异常值或特殊值干扰时则不准确。
2. 中位数-四分位数
可避免异常值干扰,用箱线图描述。
Q3(上四分位)
Q2(中位数)
Q1(下四分位)
用Turkey‘s test 方法来识别异常值:
最小估计值:Q1 - K(Q3-Q1)
最大估计值:Q3 + K(Q3-Q1)
(K= 1.5: 中度异常;K = 3: 极度异常)
3. 标准差
用于衡量波动性、离散程度、变异性。
4. 标准分
标准分Z代表距离平均值有多少个单位的标准差,可衡量偏离平均值的程度(可用于质量管理)。
质量管理体系中,常用6西格玛体系。