目录
1.基本概念
- 全距/极差(Range) : 全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。
- 四分位距(Interquartile Range,IQR):四分位距是描述数据集中间50%数据分布范围的一种统计量。
- 百分位距(Percentile Range):介于两个百分数之间的距离。
- 箱线图(Box Plot):也称为箱形图、盒式图,体现多种距 和四分位数。
-
方差(Variance): 方差是数据集中所有数据点与数据集均值之间的平方差的平均值,用来度量数据的分散程度。方差越大,表示数据点之间的差异程度越大,数据分散程度越高。
-
标准差(Standard Deviation): 标准差是方差的平方根。标准差的单位与原始数据的单位相同。
-
标准分/ z 分数(Z-score):标准分表示一个数据点与数据集均值之间的差异程度,以标准差为单位来度量。标准分 = 距离均值的标准差个数
2. 全距 (极差)
全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。
全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。
由于全距是通过数据极值计算得出的,因此不可能指出数据的真实形态以及数据是否包含异常值。
3. 四分位距
四分位距(Interquartile Range,IQR)主要用于描述数据集中间50%数据的分布范围,相比于全距(Range),四分位距更为稳健,对极端值(异常值)不敏感。
3.1 四分位数
3.1.1 概念
-
下四分位数(Q1):将数据集的前25%数据与后75%数据分隔开的数值点。也就是说,Q1是数据集中最小的四分之一数值点。
-
中位数(Q2):也称为中位数,是将数据集分成两半的数值点,即50%的数据小于等于Q2,50%的数据大于等于Q2。
-
上四分位数(Q3):将数据集的前75%数据与后25%数据分隔开的数值点。也就是说,Q3是数据集中最大的四分之三数值点。