一、值域(Range)
Range = Max - Min
受异常值(Outliers)影响
二、四分位差(IQR)
四分位距(interquartile range, IQR),又称四分差。是描述统计学中的一种方法,以确定第三四分位数和第一四分位数的区别(即Q1~Q3 的差距)。
三、异常值(Outlier)
异常值的常用定义:Outlier < Q1 - 1.5IQR
OR > Q3 + 1.5IQR
- 可视化——Box Plots(箱线图) & Whisker(盒须图)
IQR的不足
值域和IQR都无法将所有数据考虑进来;
完全不同的两个数据集也可以有相同的IQR:Normal(正态分布)、Bimodel(双峰分布)和Uniform distribution(均匀分布)we need one number that decribes the spread data that takes all the data into account.(数据分布+考虑所有数据)