1、概念
描述性统计:从总体数据中提取变量的主要信息(总和、均值等),对数据进行统计性描述。在统计的过程中,通常会配合绘制相关的统计图来进行辅助。
2、常用统计量:
(1)均值:即平均值,为一组数据的总和除以数据的个数。
缺点:容易被异常值影响
(2)中位数:将一组数据升序排列,位于该组数据最中间位置的值,就是中位数。若数据个数为偶数,则取中间两个数值的均值。
(3)众数:一组数据中出现最多的值。
(4)分位数:把所有数值由小到大排列并通过n-1个分位将数据划分为n个区间,使得每个区间的数值个数相等(或近似相等)。其中n为分位数的数量。常用四分位数。
以四分位为例:
- 四分位数应用:1. 箱线图 ; 2.识别出可能的异常值, 对异常值进行检查和处理
- 第一四分位数 (Q1),又称"较小四分位数",等于该样本中所有数值由小到大排列后第25%的数字。
- 第二四分位数 (Q2),又称"中位数",等于该样本中所有数值由小到大排列后第50%的数字。
- 第三四分位数 (Q3),又称"较大四分位数",等于该样本中所有数值由小到大排列后第75%的数字。
- 第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
- 最小估计值(下边缘):Q1-k*IQR
- 最大估计值(上边缘):Q3-k*IQR
- k=1.5 中度异常
- k=3极度异常
(5)标准差:体现一组数据中,每个元素与均值偏离的大小
其中:
-
:标准差
-
:数组中每个元素
- n:数组元素的个数
-
:数组中所有元素的均值
标准差可以体现数据的波动性,标准差越大,数据波动越大,标准差越小,波动越小
(6)标准分:是对不同数据集中的数值进行比较的一种方法,这些数据集的均值和标准差互不相同。将不同数据集转换成一个理论上的新分布,这个分布的均值为0,标准差为1,转化后进行比较。
z值代表着原始分数(x)和母体平均值(
)之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z则为负数,反之则为正数。
3、计算
(1)EXCEL
- 平均值:AVERAGE
- 四分位数:QUARTILE
- 标准差:STDEV
(2)Python
- 均值:mean()
import numpy as np
date = np.arange(10)
print(date)
print(date.mean())
# [0 1 2 3 4 5 6 7 8 9]
# 4.5
- 四分位数:使用numpy库
import numpy as np
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
print(np.quantile(x, q=[0.25, 0.5, 0.75]))
print(np.percentile(x, q=[25, 50, 75]))
'''
[10. 35. 54.]
[10. 35. 54.]
'''
- 标准差:std()
import pandas as pd
x = [1, 3, 10, 20, 35, 50, 54, 57, 70]
x = pd.Series(x)
print(x.std())
# 25.739075352467502
4、熟悉数据集