这类描述性数字的好处在于,它们描述了某个具体的值在于其他数据进行比较时所处的位置。
平均值
假设我们有一组员工的年收入数据为:[25000, 30000, 35000, 40000, 45000, 500000, 600000, 700000]。
平均值 =311250
中位数
中位数=42500
此时,中位数42500更接近大多数员工的实际收入水平,因为它没有受到异常值的影响。
四分位数
它将一组数据分为四个相等的部分,或者更准确地说,是将数据的总体按大小顺序排列后分为四个等份的数值点。
这四个点分别被称为第1四分位数(Q1)、第2四分位数(Q2,也就是中位数)、第3四分位数(Q3)和第4四分位数(Q4)。
- 第1四分位数(Q1):也称为下四分位数,是所有数值由小到大排列后第25%的数字。
- 第2四分位数(Q2):也称为中位数。
- 第3四分位数(Q3):也称为上四分位数,是所有数值由小到大排列后第75%的数字。
- 第4四分位数(Q4):最大值。
方差
表示距离平均数的离散程度。
其中:
- N 是数据的数量
- xi 是每个数据点
- μ 是数据的平均值(或称为均值)
由于在计算方差时对每个数值和平均值之差都进行了平方,因此那些远离平均值的数值即异常值就会被放大。
标准差
方差的平方根,表示距离平均数的离散程度。
由于标准差对方差进行了根号处理,保持了和原数据统一的单位,因此在对数据进行分析时,标准差是一个更为直观的常用的描述性数据。
对于任何一组数据来说,只要知道了平均数和标准差,我们就可以进行简单的统计学分析。
如美国SAT数学考试的平均分在500分,标准差为100分。
那么大部分参加考试的人的数学成绩都会在400~600分之间浮动。
众数
一组数据中出现次数最多的数值。