如何看待 z-score 和修正z-score(中位数标准化)

最新推荐文章于 2025-03-16 00:19:59 发布

Xiaofei@IDO

最新推荐文章于 2025-03-16 00:19:59 发布

阅读量1.3w

点赞数 4

分类专栏：正则表达式文章标签：机器学习概率论人工智能

本文链接：https://blog.csdn.net/nixiang_888/article/details/121955671

版权

正则表达式专栏收录该内容

5 篇文章

订阅专栏

本文探讨了z-score标准化方法在处理教育数据中的局限性，特别是在异常值和非正态分布情况下。介绍了修正后的z-score方法，使用中位数和MAD提高鲁棒性，并以康涅狄格州学区SAT参与率为例展示了两种方法的异常检测效果差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、常规标准化

z-score作为一种标准化方法，已经在各种数据处理中被使用，比如最为常见的机器学习，多种组学数据的标准化。

但是，z-score标准化有其自身的限制，这些限制来自于：

异常值的存在
正太分布（方差齐性）的假说

当我们在处理各种组学数据时，常常由于观察值不多导致数据在进行正态性检验的时候，发现并不服从正太假说；有时候，还会受到异常值的影响。

我们先介绍常规的z-score标准化方法：
$z_i = \frac{x_i-\mu}{\delta}$
其中， $\mu$ 是均值； $x_i$ 表示样本观察值； $\delta$ 表示所有样本观察值的标准差； $z_i$ 表示该样本点距离样本均值有多少个标准差，用来表示各原始数据在数据组中的相对位置。

一个常规的应用：

如果样本服从正态分布，当 $z_i|>2$ 时，该样本点即为异常点。它标示的是距离均值2个标准差范围的数据量有95%（正态分布的性质），有2.5%的数据会被标记为异常。
zscore

二、修正后的z-score

由于均值和标准差对于异常值都比较敏感，导致常规的z-score方法出现偏差。因此，对其进行了修正：
$Z_i=\frac{x_i-median(x_i)}{MAD}$
其中， $x_i$ 是样本观察值， $median(x_i)$ 是所有样本观察值的中位数，MAD(Median Absolute deviation)是中位数绝对偏差，定义如下：
$MAD=median|x_i-median(x_i)|$

标准差的定义是与均值距离的平方和，对异常值更敏感，比如一个较大的样本值在样本内，则会直接影响到样本的标准差，而MAD不会，它具有更好的鲁棒性。

MAD与标准差的关系

MAD的用法类似于样本标准差，为了使用MAD作为一致估计量来估计标准差，我们可以有：
$\delta=k*MAD$
其中， $k$ 只是一个常量因子，与样本分布有关，如果样本服从正态分布， $k = 1.4826$ .

三、实践

例子：这里有一个数据集，包含2012年康涅狄格州学区SAT的学生参与率，我们的任务是找到低参与率的学校，可以看做一个异常检测任务。由于我们要找低参与率的学校，所以阈值是一个负数，这里我们设为-2。
ps: 对于较大的数据集，较大的绝对值z zz（通常为z = 3 z=3z=3）通常用作阈值。因为我们的数据集很小，z zz的大值可能导致没有数据被标记为异常。另外，我们在选择z$时比较保守，因为我们想帮助尽可能多的学校。

# 常规z-score
import scipy.stats as ss
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
import random
#用于展示检测结果
def plot_anomaly(score_data, threshold):
    # Mask to plot values above and below threshold in different colors
    score_data = score_data.copy().sort_values(ascending=False).values
    ranks = np.linspace(1, len(score_data), len(score_data))
    mask_outlier = (score_data < threshold)
    plt.figure(dpi=150)
    plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
    plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
    plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
    plt.legend(loc = 'lower left')
    plt.title('Z-score vs. school district', fontweight='bold')
    plt.xlabel('Ranked School district')
    plt.ylabel('Z-score')
    plt.show()
data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
zscore_rate = ss.zscore(ct_test['Participation Rate'], ddof=0)#ddof是标准差计算中的自由度修正，默认为0，即标准差分母是n，而不是n-1
data=data.assign(zscore=zscore_rate)
plot_anomaly(data['zscore'], -2)
anomalies = data[(data['zscore'] < -2)]
anomalies

在这里插入图片描述

--------------------------------------------------------

# 修正z-score
def plot_anomaly(score_data, threshold):
    # Mask to plot values above and below threshold in different colors
    score_data = score_data.copy().sort_values(ascending=False).values
    ranks = np.linspace(1, len(score_data), len(score_data))
    mask_outlier = (score_data < threshold)
    plt.figure(dpi=150)
    plt.plot(ranks[~mask_outlier], score_data[~mask_outlier],'o', color='b',label='OK schools')
    plt.plot(ranks[mask_outlier], score_data[mask_outlier],'o', color='r', label='anomalies')
    plt.axhline(threshold,color='r',label='threshold', alpha=0.5)
    plt.legend(loc = 'lower left')
    plt.title('Z-score vs. school district', fontweight='bold')
    plt.xlabel('Ranked School district')
    plt.ylabel('Z-score')
    plt.show()
#修正z-score方法
def modify_zscore(data,k=1.4826):
    data_median=np.median(data)
    dev_from_med=np.array(data)-data_median
    MAD=np.median(np.abs(dev_from_med))
    mod_zscore=dev_from_med/(k*MAD)#使用的是标准差的一致性估计
    return mod_zscore,MAD
    
data = pd.read_csv('SAT_CT_District_Participation_2012.csv') 
mod_zscore,MAD=modified_zscore(data['Participation Rate'])
data = data.assign(mod_zscore=mod_zscore)
plot_anomaly(data['mod_zscore'],-2)
anomalies = data[(data['zscore'] < -2)]
anomalies