目录
1.基本概念
- 全距/极差(Range) : 全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。
- 四分位距(Interquartile Range,IQR):四分位距是描述数据集中间50%数据分布范围的一种统计量。
- 百分位距(Percentile Range):介于两个百分数之间的距离。
- 箱线图(Box Plot):也称为箱形图、盒式图,体现多种距 和四分位数。
-
方差(Variance): 方差是数据集中所有数据点与数据集均值之间的平方差的平均值,用来度量数据的分散程度。方差越大,表示数据点之间的差异程度越大,数据分散程度越高。
-
标准差(Standard Deviation): 标准差是方差的平方根。标准差的单位与原始数据的单位相同。
-
标准分/ z 分数(Z-score):标准分表示一个数据点与数据集均值之间的差异程度,以标准差为单位来度量。标准分 = 距离均值的标准差个数
2. 全距 (极差)
全距也叫极差,是用于量度数据集分散程度的一种方法。其算法为:上界-下界, 其中上界为最大值,下界为最小值。
全距仅仅描述了数据的宽度,并没有描述数据在上、下界之间的分布形态。
由于全距是通过数据极值计算得出的,因此不可能指出数据的真实形态以及数据是否包含异常值。
3. 四分位距
四分位距(Interquartile Range,IQR)主要用于描述数据集中间50%数据的分布范围,相比于全距(Range),四分位距更为稳健,对极端值(异常值)不敏感。
3.1 四分位数
3.1.1 概念
-
下四分位数(Q1):将数据集的前25%数据与后75%数据分隔开的数值点。也就是说,Q1是数据集中最小的四分之一数值点。
-
中位数(Q2):也称为中位数,是将数据集分成两半的数值点,即50%的数据小于等于Q2,50%的数据大于等于Q2。
-
上四分位数(Q3):将数据集的前75%数据与后25%数据分隔开的数值点。也就是说,Q3是数据集中最大的四分之三数值点。
3.1.2 计算
例子: 如果数据集包含 100 个数据点
下四分位数的位置:
- 如果 n 是偶数,那么下四分位数的位置为 1004=254100=25 和 1004+1=264100+1=26 的平均值,即第 25.5 个数据点。
- 如果 n 是奇数,那么下四分位数的位置为 100+14=25.54100+1=25.5 的位置,即第 25.5 个数据点。
上四分位数的位置:
- 如果 n 是偶数,那么上四分位数的位置为 3×1004=7543×100=75 和 3×1004+1=7643×100+1=76 的平均值,即第 75.5 个数据点。
- 如果 n 是奇数,那么上四分位数的位置为 3×(100+1)4=75.7543×(100+1)=75.75 的位置,即第 75.75 个数据点。
需要注意的是,如果得到的位置是小数,则通常取该位置的向上取整值作为上四分位数的位置。
3.2 四分位距
3.2.1 计算
四分位距=上四分位数-下四分位数
3.2.2 四分位距剔除提异常值
4. 百分位距
4.1 十分位距
4.2 百分位距
4.2.1 概念
4.2.2 用途
百分位数对划分名排名很有用。
4.2.3 计算
百分位数的计算:
百分位距的计算:
通常涉及到两个百分位数
例如: Percentile Range=Percentile(p2)−Percentile(p1)
其中p1 和p2 是两个百分位数的百分比。
5. 箱线图
5.1 概念
箱线图(Box Plot),也称为箱形图、盒式图,是一种用于展示数据分布情况的统计图表。它主要由五个统计量组成:下界、下四分位数(Q1)、中位数(Q2)、上四分位数(Q3)和上界。显示数据的全距、四分位距、中位数。
5.2 分析
如果你的数据中有异常值,则全距会更宽。
在箱线图上,一条条线的长度会随着上、下界的增长而增长。
通过观察箱线图上的线,就能了解数据的偏斜程度。
如果箱线图是对称的,表示基础数据很可能也相当对称。
例子:
球员A的全距相对较小,他的得分中位数比球员B高一些。
球员B的全距非常大,有时候这位球员的得分比球员A高很多,但有时又低很多。
球员A发挥更稳定,通常得分高于球员B(请比较中位数和四分位距),所以,我们会选择球员A.
6. 方差和标准差
6.1 方差
方差(Variance): 方差是数据集中所有数据点与数据集均值之间的平方差的平均值,用来度量数据的分散程度。方差越大,表示数据点之间的差异程度越大,数据分散程度越高。
快速计算公式
6.2 标准差
标准差(Standard Deviation): 标准差是方差的平方根,用来度量数据的分散程度,是方差的一种更常用的衡量方式。标准差的单位与原始数据的单位相同。
6.3 标准分/z 分数(Z-score)
6.3.1 概念
标准分,也称为 z 分数(Z-score),标准分表示一个数据点与数据集均值之间的差异程度,以标准差为单位来度量。
标准分 = 距离均值的标准差个数
6.3.2 标准分释义
标准分提供了一种将不同数据集的数据进行比较的有效方法。即使这些数据集具有不同的均值和标准差,我们仍然可以使用标准分来将它们标准化,从而将它们视为来自同一个数据集或数据分布。
例子:每一位球员的投篮命中率都有不同的均值和标准差,若要比较球员们相对于自己的历史记录的表现情况,这就带来了困难。
在将得分标准化以后,球员2的得分比球员1的得分更高。
这意味着,尽管从总体上看球员1是一位更优秀的投篮手,,但相对于本人的历史记录,却是球员2表现更好。球员2表现更好指的是……和自己比。
标准分 = 距离均值的标准差个数
6.3.3 标准分识别异常值
标准分在异常值检测中起着重要作用,它可以帮助我们识别数据集中相对于整体分布而言的极端值或异常值。
具体来说,标准分可以通过以下步骤来进行异常值检测:
- 计算数据集的均值(μ)和标准差(σ)。
- 对每个数据点计算标准分,使用标准分的公式:z=σx−μ
- 根据标准分的阈值进行判断:如果标准分 z 的绝对值大于某个阈值(通常为2或3),则将该数据点视为异常值。