缩尾处理（winsorize）-数据分析、数据处理

最新推荐文章于 2025-04-21 14:20:47 发布

原创最新推荐文章于 2025-04-21 14:20:47 发布

· 8.4w 阅读

80 ·

版权

欢迎转载，但是请明确地标注清楚源自CSDN千行百行。不加标注，虽远必诛！！！

文章标签：

#sklearn #python #机器学习

python 同时被 3 个专栏收录

67 篇文章

订阅专栏

wiki

28 篇文章

订阅专栏

scipy

6 篇文章

订阅专栏

本文介绍了使用Python和scipy库进行正态分布缩尾处理的方法。通过删除数据集的极端值并用临近值替代，可以减少异常值的影响。文章提供了具体代码示例，展示了如何对数据进行10%和20%的缩尾处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原理浅析

和经常听到的“去掉一个最低分去掉一个最高分”操作类似，缩尾处理相当于对数据进行掐头（尾）去尾，然后再按照一定的方法填补被掐掉的数据。需要注意的是，缩尾处理并不是掐掉指定个数的数据，而是按照比例，比方说删掉前10%和后20%的数据。

一个例子说清楚怎么用Python实现

话不多说，直接搬运scipy.stats.mstats.winsorize
一个例子说的清清楚楚，而且还把轮子也搬出来了。Python调个包就能用了

>>> from scipy.stats.mstats import winsorize
>>> import numpy as np
>>> a = np.array([10, 4, 9, 8, 5, 3, 7, 2, 1, 6])
>>> winsorize(a, limits=[0.1, 0.2])
masked_array(data=[8, 4, 8, 8, 5, 3, 7, 2, 2, 6],
             mask=False,
       fill_value=999999)

代码注释：

将一个从1到10的数组的顺序打乱，得到a
掐掉最小的10%的数据，同时用2去替换
掐掉最大的20%的数据，同时用8去替换

一个正态分布缩尾处理的例子

import numpy as np
from scipy.stats.mstats import winsorize
import matplotlib.pyplot as plt

np.random.seed(12345)
data = np.random.standard_normal(12345)
data_winsorize = winsorize(data, limits=[0.025, 0.025])
lower_band = np.percentile(data, 2.49)  # 避开临界点
upper_band = np.percentile(data, 97.51)  # 避开临界点
bins = [min(data), lower_band, -1, 0, 1, upper_band, max(data)]  # 注意区间是左闭右开，所以要避开临界点
plt.hist(
    data,
    # alpha=0.15,
    label='data',
    bins=bins,
    color='b'
)
plt.figure()
plt.hist(
    np.array(data_winsorize),
    # alpha=0.15,
    label='data_winsorize',
    bins=bins,
    color='r'
)
plt.legend()