数据的基本统计描述
均值、众数、方差、标准差
中位数:数据从小到大排列–奇数个值:取中间;偶数个值,取中间两数的平均
中列数:=(max+min)/2
极差(range):max-min
分位数(quantile): 二分位数–中位数;
- 四分位数–Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75*
四分位数极差(IQR):=Q3-Q1
五数概括:Q2,Q1,Q3、min、max按次序min、Q1、Q2、Q3、max写出
盒图 / 箱型图(Box-plot)
体现五数概况,
- 盒的端点–四分位数
- 盒内的线标记–中位数
- 盒外两条线–最大和最小
- 仅当最高和最低观测者超过四分位数不到1.5IQR时,胡须可扩展到它们,否则,胡须在出现在四分位数的1.5IQR之内的最极端观测值处种植,剩下的个别绘出。
1、IQR = Q3-Q1,即上四分位数与下四分位数之间的差,也就是盒子的长度。
2、最小观测值为min = Q1 - 1.5IQR,如果存在离群点小于最小观测值,则胡须下限为最小观测值,离群点单独以点汇出。如果没有比最小观测值小的数,则胡须下限为最小值。
3、最大观测值为max = Q3 + 1.5IQR,如果存在离群点大于最大观测值,则胡须上限为最大观测值,离群点单独以点汇出。如果没有比最大观测值大的数,则胡须上限为最大值。
作用:
- 识别异常值
箱形图为我们提供了识别异常值的一个标准:异常值被定义为小于Q1-1.5IQR或大于Q3+1.5IQR的值。
- 偏态和尾重
- 判断数据集的数据离散程度和偏向(观察盒子的长度,上下隔间的形状,以及胡须的长度)。
散点图
作用:确定两个数值变量之间是否存在联系、模式或趋势。比如两个属性是否是呈现正相关或者负相关或者不相关
直方图 / 频率直方图
作用:统计频数
分位数图
分位数-分位数图(q-q图)